WO2011118282A1 - 世界座標系データベースを利用したサーバ及び端末 - Google Patents

世界座標系データベースを利用したサーバ及び端末 Download PDF

Info

Publication number
WO2011118282A1
WO2011118282A1 PCT/JP2011/052868 JP2011052868W WO2011118282A1 WO 2011118282 A1 WO2011118282 A1 WO 2011118282A1 JP 2011052868 W JP2011052868 W JP 2011052868W WO 2011118282 A1 WO2011118282 A1 WO 2011118282A1
Authority
WO
WIPO (PCT)
Prior art keywords
coordinate system
index
camera
unit
world coordinate
Prior art date
Application number
PCT/JP2011/052868
Other languages
English (en)
French (fr)
Inventor
義則 武者
潔 池原
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Publication of WO2011118282A1 publication Critical patent/WO2011118282A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Definitions

  • the present invention relates to a server and a terminal using a database in the world coordinate system, and in particular, is an actual application for providing information by superimposing related information on an object on a captured image using augmented reality, that is, AR (Augmented Reality) technology.
  • the present invention relates to a server and a terminal that generate coordinate information of a space, store it in a database of the world coordinate system, and realize AR display using the stored information.
  • Non-Patent Document 1 uses a SIFT feature quantity
  • Non-Patent Document 2 uses a SURF feature quantity. Is disclosed.
  • Non-Patent Document 3 a plurality of markers that are associated with the world coordinate system and markers that are not associated with each other are arranged in the environment, captured by the camera, and the relative position of the marker with respect to the camera is estimated. A technique is disclosed.
  • a service that provides information related to an object or a marker to a user holding a camera-equipped terminal using AR technology is being developed.
  • the user who is a user, uses the terminal outdoors, there is often a real space without a marker between two real spaces where the marker exists,
  • the auxiliary marker does not always exist in such a space.
  • An object of the present invention is to provide a server and a terminal using a world coordinate system database that can solve the above-described problems and allow a user to receive a service with high usability using AR technology.
  • the server of the present invention has a function of receiving video captured by a camera of a terminal, and a feature extraction unit that extracts a natural feature amount in each video frame for a plurality of video frames constituting the video and accumulates them in a feature database
  • An index detection unit for detecting an index for identifying AR-related information from each video frame, an index identification unit for identifying the detected index, and the natural feature quantities of the plurality of video frames
  • a world coordinate system conversion unit that converts the coordinates of unknown indices in the frame and the coordinates of the natural features into a world coordinate system, and a world that stores the converted coordinate data of the world coordinate system.
  • a coordinate system database for detecting an index for identifying AR-related information from each video frame, an index identification unit for identifying the detected index, and the natural
  • the relative position / posture relationship of a plurality of markers not included in the same frame can be specified without using auxiliary markers. Even if the marker itself cannot be photographed or when detection or identification of the marker fails, the position and orientation of the marker can be estimated by photographing the marker periphery.
  • the block diagram which shows the example of a structure of a terminal system and a server system and an example of a functional module of each terminal system and a server system which become 1st Example of this invention.
  • the flowchart which showed the outline
  • the figure showing the relationship of the movement condition of the marker and building in the outdoor real space in the 1st Example, and the imaging range of a camera position and direction.
  • the figure which shows the structural example which performs a two-dimensional superimposed display of related information when a marker exists in a visual field and marker identification is successful.
  • the figure which shows the structural example which performs the three-dimensional superimposed display of the relevant information of a marker with respect to a marker when a marker exists in a visual field and marker identification succeeds.
  • the present invention uses a natural feature extracted from the surrounding environment other than the marker and the marker together, groups the natural features, tracks, and collates them, thereby associating the natural features included in the plurality of videos with the world coordinates.
  • a feature in the server and the terminal that constructs the system database and uses the information.
  • the natural feature for example, a SIFT feature value or a SURF feature value that is a scale invariant can be used.
  • the spatial coordinate system of natural features included in a plurality of videos is converted into a world coordinate system using the marker as a reference, and stored in the database. Furthermore, the marker arrangement is also expressed in the world coordinate system, and the natural feature group around the marker included in the video is compared with the natural feature accumulated in the past in the coordinate group of the world coordinate system, Estimate position and orientation.
  • the world coordinate system may be any coordinate system that can be used in common by an unspecified terminal user or provider via the network to express the real world and the AR space.
  • the world coordinate system is used as such a common coordinate system.
  • the world coordinate system used in the present invention includes those defined in other terms such as the earth coordinate system, as long as they are suitable for such applications.
  • the common coordinates within one frame of the video are defined as an intra-frame common coordinate system, and the coordinates common among a plurality of frames are defined as an inter-frame common coordinate system.
  • a coordinate system for representing the position and orientation of the camera in the real world is defined as camera coordinates.
  • an index is arranged or displayed in the actual world and is associated with related information prepared on the network in advance, or defined as something that can be associated afterwards. To do.
  • FIG. 1 shows a configuration example of a terminal system and a server system for creating and using a world coordinate system database according to the first embodiment of the present invention.
  • a plurality of client terminals 11, 12, 13 are connected to one server 15 via a communication network 14 such as the Internet or a public line.
  • the terminal and server can also be connected to a provider 16 that provides information related to the index.
  • a system configuration capable of such a server / client configuration will be described below.
  • a system configuration for transmitting and receiving video as communication data between the server and the client is shown.
  • Each of the server and the terminal includes at least one computer, and is configured such that a predetermined function is realized by executing a program on a memory.
  • a specific object in the real world for example, a building 10 or a pillar, is provided with an index (marker) having a function of providing related information for performing AR display superimposed on a captured image of a real-world camera.
  • Each of the terminals 11, 12, and 13 is equipped with at least a camera 101 having a moving image shooting function, a display unit 112, and an AR display processing function 130.
  • the AR display processing function 130 has a function of displaying AR on the display unit 112 with related information provided from the provider 16 superimposed on the captured video of the camera, as described below.
  • the server 15 includes a video buffer 150 that holds a captured video received from the camera 101, and a feature extraction unit 151 that extracts a natural feature amount of the captured video (natural feature extraction unit 102, feature frame buffer 106 (see FIG. 4)). And an index detection unit 103 that detects the presence or absence of an index (marker) from the captured video, an index identification unit 104 that identifies the detected index, and information for performing AR display related to the detected index.
  • a related information acquisition unit 105 that is acquired from the provider 16 via a feature group, a feature grouping association unit 107 that associates feature amounts between these video frames with respect to a plurality of video frames from which natural features have been extracted, A feature amount DB 108 that holds feature amounts, and a position / posture estimation unit 152 that estimates the relative positions and postures of the camera and the index (camera Position of the marker and orientation estimating section 109 (see FIG. 4), the marker position estimation unit 116 (see FIG. 15)) and are mounted.
  • the server 15 further stores coordinates of unknown indices and natural feature quantities (common coordinates within frames or common coordinates between frames) in the world coordinate system with reference to indices whose positions and orientations are known.
  • a world coordinate system conversion unit 153 (a mapping unit 113 to the world coordinate system (see FIG. 4) and a collation unit 114 in the world coordinate system (see FIG. 15)) that converts the coordinate data in the world coordinate system to World coordinate system database 115 (see FIG. 15) to be accumulated, camera motion complementing unit 154 (camera motion complementing unit 110 (see FIG. 13), projection unit 117 on camera coordinate system (see FIG. 15)) and overlay display processing Part 111 is mounted.
  • the marker related information and the captured video held in the video buffer 150 are superimposed while adjusting timing and transmitted to the terminal as display data.
  • a map conversion unit 156 and a map superposition unit 155 are also mounted as necessary.
  • processing for holding and updating a video frame captured by the camera (moving image capturing unit) 101 of any one of the terminals N 13 processing for creating and updating a world coordinate system database based on the information on the video frame
  • the processing for adding the related information for performing the AR display to the information of the video frame and displaying it on the display unit of the terminal N is executed in parallel. That is, when a video shot by the camera is transmitted from the terminal N13 to the server 15, this video is held in the video buffer in units of frames.
  • the server 15 performs natural feature extraction processing, index detection, and index identification processing for each frame of the video.
  • the world coordinate system database creation and update process creates a feature database, and further creates and updates the world coordinate system database. Accumulated in the system database 115.
  • related information for AR display is acquired, and the presentation position of the related information is adjusted by complementing the movement of the camera. Then, the related information and the video are superimposed, and the processing result is transmitted to the terminal N. Based on this, the video captured by the display unit 112 of the terminal N and the AR display related to the video are displayed. Related information is superimposed and displayed on the screen of the terminal N. In these processes, information in the feature amount DB 108 and the world coordinate system database 115 is also used.
  • the map conversion unit 155 has a function of converting the camera coordinates into coordinates on the map corresponding to the world coordinate system, and the map superimposing unit 156 has a function of displaying the camera position on the map in an overlapping manner. . Accordingly, there is an effect that the user can grasp the current location of the user's confidence only by photographing the landscape.
  • FIG. 3 is a diagram illustrating an example of a relationship between three video frames photographed by the camera moving image photographing unit 101 of the terminal N and the real space.
  • a plurality of outdoor buildings and markers are shown as a real space.
  • Reference numeral 202 denotes a marker A installed on the building 10A
  • 203 to 205 denote camera positions and orientations.
  • 201 is an imaging range from the camera position / orientation 203
  • 206 is an imaging range from the camera position / orientation 204
  • 207 is an imaging range from the camera position / orientation 205
  • 208 is a marker B installed in another building D. ing.
  • the moving images captured by the camera moving image capturing unit 101 that is, the data of the video frames 209, 210, and 211 corresponding to the imaging range 201, the imaging range 206, and the imaging range 207, are transmitted to the server 15 one by one.
  • FIG. 4 a natural feature is extracted by a natural feature extracting unit 102 from a video frame of a moving image shot by the camera moving image shooting unit 101.
  • the feature frame buffer 106 natural feature amounts are collected and buffered for each frame.
  • the data in units of frames is stored in the feature DB 108 and simultaneously input to the feature point grouping association unit 107.
  • the frame number is a number indicating a video frame.
  • the coordinates of the points on the screen are the numbers (1, 2, 3, ⁇ ) for distinguishing the feature points in a certain frame in the intra-frame common coordinate system, and the coordinates X, Y (two-dimensional) of each feature point on the screen. ) (10, 20, etc.). It is stored for each frame by the number of feature points.
  • Non-Patent Document 1 As a natural feature extraction method in the natural feature extraction unit 102, a SIFT feature amount (see Non-Patent Document 1), a SURF feature amount (see Non-Patent Document 2), and other known methods can be used. Both are obtained as scale invariants that can be extracted robustly.
  • the extracted feature amount may be a point, a line segment, or another color / shape as long as it can identify the coordinates in the image or video frame.
  • the feature points are grouped into small groups, and are correlated and tracked between consecutive frames.
  • small groups are associated with each other between distant frames by performing collation processing.
  • two types of association data are generated according to the degree of small group replacement between any two frames read from the feature frame buffer 106 and the feature DB 108, and the position / posture estimation of the camera and marker is performed.
  • Marker identification information from the marker identification unit 104 and its coordinates are handled as feature points.
  • the feature point grouping association unit 107 will be described again with reference to FIG.
  • the camera / marker position / posture estimation unit 109 treats the small group group associated by the association data as a virtual marker that is virtually defined in the calculation although no marker exists in the real space. -Estimate the posture and position / posture of the marker and virtual marker. Coordinate data indicating the estimated position / posture is input to the world coordinate system mapping unit 113.
  • Non-Patent Document 3 For this estimation method, for example, a known method described in Non-Patent Document 3 can be used.
  • the video frame from the camera moving image photographing unit 101 is also input to the marker detection unit 103, and the marker installed in the real space is detected. Further, the information represented by the detected marker is identified by the marker identifying unit 104.
  • This marker can express a link such as a URL or an information ID, a keyword, or the like.
  • marker-related information is also acquired as necessary, and sent to the mapping unit 113 to the world coordinate system.
  • the related information acquisition unit 105 acquires the information of the link destination as link information if it is link information and the information searched using it as a search key if it is a keyword or the like as marker related information from the provider 16 or the like via the network.
  • the related information acquisition unit 105 can acquire a database outside the system and Web information one after another, but may have a marker related information database therein.
  • the frame-by-frame coordinate system (intra-frame common coordinate system) is converted to a common coordinate system (inter-frame common coordinate system) between a plurality of frames. If the acquired marker-related information is text or image data, it is pasted on a three-dimensional CG object, or if it is a three-dimensional CG object, the size scale is adjusted to the world coordinate system. To the mapping unit 113.
  • the world coordinate system mapping unit 113 maps the estimated marker and virtual marker coordinates to the world coordinate system using markers whose positions and orientations are already known in the world coordinate system. Whether the marker is known or not is checked by searching the marker identification information in the world coordinate system DB 115 and registering it. That is, for known markers, coordinate data in the world coordinate system is registered in the world coordinate system DB 115 in association with the marker identification information.
  • the relative position / posture information estimated by the camera and marker position / posture estimation unit 109 for the marker is the position / posture registered as the world coordinate system. It turns out to be the same as the posture information. Therefore, by applying a conversion process that converts the relative position / orientation information to position / orientation information for the world coordinate system to unknown markers and natural features, Realize mapping.
  • the coordinate data in the world coordinate system of the unknown marker and the natural feature thus obtained is registered in the world coordinate system DB 115.
  • the natural feature input to the world coordinate system mapping 113 via the natural feature extraction unit 102, the feature frame buffer 106, the feature point grouping association unit 107, and the camera / marker position / posture estimation 109.
  • a common coordinate system between frames of quantities is also converted into world coordinates by the coordinate conversion formula and stored in the world coordinate system DB 115.
  • FIG. 6 shows an example of the data structure of feature point coordinates in the world coordinate system DB 115.
  • the world coordinate system is expressed by latitude, longitude, and height.
  • the feature level is an index of the ease of extracting feature points. The higher the feature level, the easier it is to extract, and it is used as a weight for matching feature points (see SIFT and SURF feature values).
  • the number of collations is the same as (number of times of photographing-1) of the feature point. Each time the collation is successful, the number of successful collations increases and the reliability of the feature points increases.
  • Feature point reliability number of successful collations / number of collations
  • Feature points with high feature point reliability are preferentially used for collation when the frequency of collation is reduced to increase the calculation speed and efficiency. .
  • the date and time of registration can change over time (for example, the building is gone or the marker is faintly printed), so the age of the information can be compared.
  • the related information ID indicates an
  • Fig. 7 shows an example of the data structure in the world coordinate system DB.
  • This data structure corresponds to the example shown in FIG. 8 in which a virtual 3D object (rocket) is arranged next to the building as information related to the marker acquired by the related information acquisition unit 105. .
  • a marker point is defined as a “marker feature point”, and a point without a marker is defined as a “natural feature point”.
  • Posture directions X, Y, and Z indicate normal vectors with respect to a plane serving as a reference for object placement.
  • the reference point ID indicates one of the feature points included in the plane, and adopts a feature point near the center point where the object is arranged.
  • the marker composing point ID indicates a plurality of feature points composing the marker.
  • the object ID indicates a 2D or 3D object. For example, an ID that identifies 3D data of a rocket for performing AR display is an example of an object ID.
  • the URL indicates a reference destination to other information associated with the related information ID such as a provider.
  • 704 is a road
  • 202 is marker A
  • 708 is a building
  • 709 is a normal line of the road.
  • the inter-frame common coordinates (1) of the marker and the identification information are passed through the marker identifying unit 104, the feature point grouping and associating unit 107, and the camera / marker position / posture estimation 109. Is entered.
  • the world coordinate DB 115 the world coordinate (2) of the marker and the identification information are stored, and the inter-frame common coordinate (1) and the world coordinate (2) are actually the same for those in which the marker identification information matches. Therefore, a coordinate conversion formula from the interframe common coordinates (1) to the world coordinates (2) is created.
  • the unknown marker can be identified by registering the coordinate data in the world coordinate system in relation to the known marker. Become known.
  • FIG. 9 is a PAD showing a processing procedure of a block that performs grouping association of feature points.
  • Processing 901 of the feature point grouping association unit 107 is processed in the following steps.
  • the state is set to “tracking” (step 902).
  • Steps 905 to 915 are repeated until all the data in the feature point frame buffer 106 described below is processed (step 903).
  • the feature point frame is acquired from the feature point frame buffer 106.
  • a small group is generated with three or more nearby feature points, and all the feature points in the frame are grouped into small group groups.
  • the small group is tracked between successive frames, and a movement vector for association is calculated.
  • step 908 the state is determined, and if the state is “tracking”, the process proceeds to the next step 909, and if the state is “tracking interruption”, the process proceeds to step 910. If it is determined in step 909 that the processing result of step 907 is determined and tracking is impossible, the process proceeds to step 914. In step 914, the small group of the previous frame is saved as “save A”, and in step 915, the state is changed to “tracking interruption”. In the next iterative process, if the status is “tracking interrupted” in step 908, the process proceeds to step 910.
  • step 910 the small group group of the current frame is compared with the saved small group group “save A”, and if it is determined to match in step 911, association from “save A” is performed in step 912.
  • the movement vector obtained is calculated.
  • step 913 the state is changed to “tracking”.
  • step 904 the next processing (steps 916 to 920) is repeated until the feature point frames to be prepared are exhausted.
  • step 916 two feature point frames are prepared from the feature point frames connected by the chain of movement vectors.
  • a pair of arbitrary two feature point frames whose replacement rate calculation has not been processed can be prepared.
  • the marker identification information from the marker identifying unit 104 and A plurality of frames including the coordinates and a frame obtained by sampling from frames arranged in between may be prepared.
  • step 917 a feature point replacement rate is calculated.
  • the replacement rate is defined as the ratio of the number of feature points that are not associated by the movement vector from the first frame to the second frame with respect to the total number of feature points existing in the prepared first frame. . If the calculated replacement rate is less than or equal to X% in step 918, a pair of feature point frames and a movement vector between them are output as association data output 1 in step 919. In step 918, in the case of X to Y%, in step 920, the feature point frame pair and the movement vector between them are output as the association data output 2.
  • the values of X and Y are X ⁇ Y.
  • the value of X is assumed to be used by the camera and marker position / posture estimation unit 109 to estimate the position / posture of markers and feature points. Many markers and feature points are included in the same frame. Set to select frames with different viewpoints. Therefore, the value of X is set to be small so that as many markers and feature points as possible are included in common although there is sufficient parallax to improve the estimation accuracy of the position and orientation.
  • the value of Y is set by the camera and marker position / posture estimation unit 109 in order to select a feature point frame for connecting a plurality of frames including markers that do not exist in the same frame with a chain of movement vectors.
  • Y When the number of feature point frames connecting between them increases, errors accumulate and the position / posture estimation accuracy decreases, so the value of Y is set to be large so that the number is as small as possible.
  • the values of X and Y may be dynamically changed according to the number of selected feature point frames.
  • Reference numeral 1001 denotes one feature point in a certain feature point frame.
  • Reference numeral 1003 denotes the same feature point in another feature point frame. This feature point indicates that the position has moved from the position 1001 to the position 1003.
  • the above movement vector is 1002 information indicating the direction and length of this movement.
  • the association data includes information specifying a feature point frame, coordinate information such as 1001 as information specifying the feature point, and a movement vector thereof.
  • the relative positional / posture relationship of these markers can be specified without using auxiliary markers.
  • the unknown marker can be obtained by determining and registering the coordinate data in the world coordinate system in relation to the known marker. Becomes known. It also maps the current camera position and orientation to the world coordinate system.
  • the imaging range 201 is photographed, and the feature point frame 209 shows the marker A 202 and the natural feature point at that time.
  • the imaging range 206 is photographed, and the scoring frame 210 indicates the natural feature point at that time.
  • the camera position / orientation 205 is set, the imaging range 2007 is captured, and the feature point frame 211 indicates the marker B 208 and the natural feature point at that time.
  • the position / posture relationship between the marker A and the natural feature point group (referred to as FA) is specified.
  • the position / posture relationship between the marker B and the natural feature point group (referred to as FB) is specified in the feature point frame 211.
  • the mutual relationship between the position and orientation of the natural feature point group FA and the natural feature point group FB is specified. In this manner, the relationship between the positions and postures of the two markers A202 and B208 located at positions distant from each other in the real space is specified via the intermediate feature point frame 210.
  • FIG. 12 is a schematic diagram for explaining the relationship between the movement vector and the association data.
  • the situation assumed here is a landscape in which four buildings are lined up in front of the road, as in the case of FIG.
  • the marker A that is visible is too far away, it is small in the image and cannot be identified.
  • the positional relationship between 1003 natural feature points and the markers A and B is stored in advance in the world coordinate system database 115. Therefore, even if neither the marker A 202 nor the marker B 208 can be identified, the positions of the marker A and the marker B can be estimated by collating the natural feature points, so that the related information (object) can be superimposed on it. I can do it.
  • a world coordinate system database that can specify the relative position / posture relationship of a plurality of markers not included in the same frame without using auxiliary markers. It is also possible to provide a world coordinate system database that can estimate the position / posture of a marker by photographing the periphery of the marker even if the marker itself cannot be photographed or even if the marker detection or identification fails. it can.
  • the world coordinate system database is shared and repeatedly used by a plurality of terminal users, each time a service user photographs markers and their surroundings from various positions and registers them with the server, the natural feature points are used.
  • the space model in the field is constructed in the world coordinate system, and the data increases each time many service users use it, and the reliability of the database increases.
  • the projection unit 117 to the camera coordinate system knows the camera position / posture mapped to the world coordinate system and the position / posture of the marker related information photographed from the camera in the world coordinate system. Projective transformation of posture to camera coordinate system.
  • the marker related information of the related information acquiring unit 105 is directly input to the camera motion complementing unit 110 through the marker-related information output path 118.
  • the camera motion complementing unit 110 is for causing the marker related information to follow the quick shaking and movement of the camera.
  • the marker-related information is changed according to changes in the camera position and orientation. You can use a method to follow the coordinates of the information.
  • the marker-related information is superimposed on the video superimposed image 111 with the video captured by the camera video, and displayed on the display unit 112.
  • the camera moving image and related information can be displayed in a two-dimensional manner.
  • the marker information can only be superimposed two-dimensionally. This is useful when displaying related information, for example, in the form of simple text information, like a balloon.
  • FIG. 14 when the marker is in the field of view and the marker identification is successful, as in the camera frames 209 and 211 of FIG.
  • the camera motion complementation unit 110 converts the three-dimensional object into a position / posture in the camera coordinate system. Since the 3D position and orientation of the marker are known, the 3D object is arranged as related information according to the position and orientation of the marker, as if the 3D object was actually placed on the spot. It is possible.
  • instead of the camera and marker position / posture estimation unit 109 there is a method of detecting the orientation and movement of the camera using a six-axis acceleration sensor.
  • the three-dimensional object may be a moving object (such as a figure or an avatar), and updated information in that case is supplied to the camera motion complementation unit 110 via the data flow 118.
  • FIG. 15 shows processing when the marker is not in the field of view as in the frame 210 of the camera, or when the marker cannot be detected although it is in the field of view as in the frames 209 and 211 of the camera in FIG.
  • the method will be described.
  • the image is superimposed and displayed using the information related to the marker near the visual field and the information associated with the coordinates of the world coordinate system DB.
  • the position / orientation of the marker is estimated, and an image is displayed by overlapping the objects.
  • the world coordinate of the natural feature from the camera video is checked by the matching unit 114 in the world coordinate system.
  • the position in the system is collated, and the marker position estimation unit 116 identifies a marker existing in the vicinity thereof.
  • the information of the specified marker is input to the related information acquisition unit 105 instead of the identified marker information.
  • the marker related information can be output.
  • the camera moving image photographing unit 101, the natural feature extracting unit 102, the feature frame buffer 106, the feature point grouping and associating unit 107, and the camera / marker position / posture estimating unit 109 have an inter-frame common coordinate system. Is used.
  • the camera / marker position / posture estimation unit 109 detects the movement of the camera using the feature frame. In place of this function, there is a method of detecting camera movement using a six-axis acceleration sensor.
  • a function (collation unit 114 in the world coordinate system) for performing collation in the world coordinate system database 115 and acquiring the marker position and identifier using the inter-frame common coordinate system is added.
  • the collation unit 114 collates the feature point group with the world coordinate system, and acquires the marker position and identifier in the vicinity.
  • a function for estimating the marker position in the camera frame using the collation result is also added.
  • a function projecting unit 117 to the camera coordinate system for converting a three-dimensional object into a position / posture in the camera coordinate system is also added.
  • the three-dimensional object may be a moving object (such as a figure or an avatar), and updated information in that case is supplied in the data flow 118.
  • FIG. 16 when marker identification is successful, information that is not included in the captured video of the camera and that is associated with the marker related information or the coordinates of the world coordinate system DB is superimposed on the video and displayed on the terminal.
  • the example of a structure displayed on a part is shown. In this example, it is possible to provide the user with richer and more detailed information than information based on the marker identification result.
  • FIG. 17 shows an example of an image in which the marker position / posture is estimated by using the captured image around the marker when marker identification fails, and the objects are superimposed and displayed on the display unit.
  • 1503 is a frame
  • 710 is an object (rocket) associated with the marker A202
  • 1504 is associated information (sentence) associated with the marker B208.
  • the AR display of the object (rocket) 710 corresponding to the marker A202 is performed even though the identification of the marker A202 has failed.
  • text information 1504 related to the marker B 208 that is not included in the frame 1503 but is in the immediate vicinity of the frame 1503 is also displayed in an overlapping manner in the frame 1503.
  • the related information of the marker near the field of view and the information associated with the coordinates of the world coordinate system DB Overlapping display is possible. Since the surrounding 3D structure is known, the 3D object is aligned with the 3D space as if it were related to the marker near the field of view and other information, as if it were actually placed on the spot. It is possible. Further, by storing the three-dimensional object other than the marker relation in association with the coordinates of the world coordinate system DB, the three-dimensional object can be displayed in a superimposed manner in a space other than the marker. This is the greatest merit of using the world coordinate system DB.
  • a two-dimensional or three-dimensional CG object which is marker related information, can be expressed by being superimposed on the photographed video in a form that matches the position / posture of the marker in the real space photographed video.
  • the marker-related information and other information can be provided by AR display.
  • the provider even when the position and orientation of the marker are not registered in the world coordinate system DB with high accuracy, there is an advantage that the user of the terminal can provide a service by photographing the periphery of the marker. .
  • the service user captures the marker or the marker periphery from various positions and registers it on the server.
  • the data in the world coordinate system database increases and the reliability of the database increases.
  • the service for the marker related information and other information will be further enhanced.
  • the terminal only needs to process video shooting and display, but the communication load increases.
  • the server load becomes high. Therefore, an embodiment in which communication load and server load are reduced will be described.
  • FIG. 18 is a block diagram showing an example of a functional module showing a system for creating and using a world coordinate system database according to the second embodiment of the present invention.
  • processed data such as feature point data and marker related information is transmitted and received as communication data between the server and the client.
  • Terminals 1701 to 1703 include the camera 101 of the terminal 13, the feature extraction unit 151 of the server 15, the marker detection unit 103, the marker identification unit 104, the related information acquisition unit 105, and the camera motion shown in FIG.
  • a complement unit 154, a video overlay unit 111, a video buffer 150, a display unit 112 of the terminal 13, and an AR display processing function 130 are mounted.
  • the server 1705 is loaded with other functional parts of the server 15.
  • Each terminal, the server 1705, and the provider 1706 are connected via a communication network 1704.
  • the terminals 1801 to 1803 include the camera moving image photographing unit 101 of the terminal 13, the feature extraction unit 151 of the server 15, the marker detection unit 103, the marker identification unit 104, the related information acquisition unit 105, and the feature in FIG.
  • the frame buffer 106, the feature point grouping association unit 107, the camera / marker position / posture estimation unit 152, the camera motion complementing unit 154 including the projection unit 117 on the camera coordinate system, and the video are superimposed.
  • the unit 111, the video buffer 150, the display unit 112 of the terminal 13, and the AR display processing function 130 are mounted.
  • the server 1805 is loaded with other functional parts.
  • the server 1805 is basically equipped with a part that handles the world coordinate system data, a part that handles the feature point frame DB, and a map conversion unit as necessary.
  • Each terminal, the server 1805 and the provider 1806 are connected via a communication network 1804.
  • the terminal load increases compared to the first and second embodiments, but the communication load and server load are reduced.
  • an in-situ spatial model based on natural features is constructed in the world coordinate system. Is done.
  • the camera and display unit must be placed on the terminal, and the part that handles the world coordinate system data must be placed on the server, but whether the terminal or server has other functions depends on the application, terminal or server processing What is necessary is just to set suitably according to capability etc., and it is not limited to the example of arrangement
  • the present invention can be used for, for example, an information retrieval service that provides information on an object viewed through a mobile phone, a mobile terminal, a head-mounted display, and the like, and a work support system that provides supplementary information on the object. It is.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Devices (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

同一フレームに含まれない複数のマーカの相対的な位置・姿勢関係を、補助マーカを用いずに特定すること。特徴点のグループ化対応付け部107では、特徴点が小グループにまとめられ、連続したフレーム間で追跡されて対応付けが行われる。あるいは、連続したフレーム間での小グループの追跡が、遮蔽やカメラアングルの急な変更などで中断した場合、照合処理を行うことで離れたフレーム間での小グループ群の対応付けされる。また、特徴フレームバッファ106および特徴DB108から読みだされる任意の2つのフレーム間で小グループの入れ替え度合いの大小に応じて、2種類の対応付けデータが生成され、カメラとマーカの位置・姿勢推定部109へ入力される。マーカ識別部104からのマーカ識別情報とその座標を特徴点として扱う。カメラとマーカの位置・姿勢推定部109では、対応付けデータによって対応付けされた小グループ群を実空間上にはマーカは実在しないが計算上仮想的に定義された仮想マーカとして扱い、カメラの位置・姿勢およびマーカおよび仮想マーカの位置・姿勢を推定し、世界座標系変換部113で世界座標系へのマッピングを行う。

Description

世界座標系データベースを利用したサーバ及び端末
 本発明は、世界座標系のデータベースを利用したサーバ及び端末に係り、特に、拡張現実感すなわちAR(Augmented Reality)技術を用いて撮影映像に対象物の関連情報を重ねて情報提供するための実空間の座標情報を生成し、世界座標系のデータベースに蓄積し、蓄積されたこの情報を利用したAR表示を実現するサーバ及び端末に関する。
 AR技術において、現実空間にコンピュータグラフィックス(CG)で作成された仮想空間のオブジェクト等を正確に重ね合わせるために、現実空間に配置されている対象物の3次元座標を推定することが行われている。ある位置・向きで撮影された端末のカメラ映像(動画)に映るマーカ(指標)の空間座標系と、別の位置・向きで撮影されたカメラ映像に映るマーカの空間座標系が同一なものとしないと、両者のマーカが相互にどのような位置や向きの関係で配置されるのかを決定することができない。これを解決する方法として、両者のカメラ映像に共通に含まれるように、補助マーカを用意し、配置する方法が提案されている(特許文献1)。
 スケール(大きさ)と回転に対して不変な特徴量を求めるための特徴点追跡法として、非特許文献1にはSIFT特徴量を用いる手法が、非特許文献2にはSURF特徴量を用いる手法が開示されている。
 非特許文献3には、世界座標系に対応付けられたマーカと対応付けられていないマーカとを環境内に複数個配置し,それらをカメラで取り込み、カメラに対するマーカの相対的な位置を推定する手法が開示されている。
特開2006-214832号公報
Lowe, David G. "Object recognition from local scale-invariant features", Proceedings of the International Conference on Computer Vision. 2, pp. 1150-1157, 1999 Herbert Bay, Andreas Ess, Tinne Tuytelaars, Luc Van Gool "SURF: Speeded Up Robust Features", Computer Vision and Image Understanding (CVIU), Vol. 110, No.3, pp. 346-359, 2008 G. Baratoff, et al., "Interactive Multi-Marker Calibration for Augmented Reality Application," ISMAR 2002, pp.107-116, 2002
 AR技術を用いて、カメラ付き端末を保持するユーザに、対象物やマーカに関連する情報を提供するサービスが開発されつつある。このようなサービスを提供する際、利用者であるユーザが屋外で端末を利用する場合を想定すると、マーカの存在する2つの現実空間の間にマーカのない現実空間が存在することは多々あり、そのような空間に補助マーカが存在するとは限らない。また、マーカのない現実空間に備えて、ユーザに補助マーカを用意させることも現実的ではない。よって、マーカのない現実空間が存在する場合であっても、補助マーカを用いずにAR技術を用いたサービスを提供できる手法が必要である。
 また、マーカに関連付いた情報をユーザに提供する場合、ユーザがマーカの検出またはマーカが表現する情報の識別に失敗した場合に、それに関連付いた情報を提供することができない。よって、マーカに関連する情報を提供するサービスのユーザビリティを向上させるために、ユーザがマーカの検出または識別に失敗した場合でもマーカの関連情報を提供する手法が必要である。
 先行技術では、マーカの検出またはマーカが表現する情報の識別に失敗した場合に、それに関連付いた情報を提供することについての配慮が十分でなかった。
 本発明の目的は、上記の課題を解決し、ユーザがAR技術を用いたユーザビリティの高いサービスを受けられる、世界座標系データベースを利用したサーバ及び端末を提供することにある。
 本発明の代表的なものの一例を示すと次の通りである。本発明のサーバは、端末のカメラで撮影された映像を受信する機能と、前記映像を構成する複数の映像フレームについて各映像フレーム内の自然特徴量を抽出し特徴量データベースに蓄積する特徴抽出部と、AR関連情報を特定するための指標を前記各映像フレームから検出する指標検出部と、検出された前記指標を識別する指標識別部と、前記複数の映像フレームの前記自然特徴量の間の対応付けを行う特徴グループ化対応付け部と、前記カメラと前記指標との相対的な位置および姿勢を推定する位置・姿勢推定部と、前記位置・姿勢が既知の前記指標を基準にして前記映像フレームにおける未知の指標の座標および前記自然特徴量の座標を世界座標系に変換する世界座標系変換部と、変換された前記世界座標系の座標データを蓄積する世界座標系データベースとを備えている。
 本発明によると、同一フレームに含まれない複数のマーカの相対的な位置・姿勢関係を、補助マーカを用いずに特定することができる。また、マーカ自体を撮影できなくとも、あるいは、マーカの検出または識別に失敗した場合でも、マーカ周辺を撮影することで、そのマーカの位置・姿勢を推定することができる。
本発明の第1の実施例になる、端末システムおよびサーバシステムの構成例と、各端末システムおよびサーバシステムの機能モジュールの一例を示すブロック図。 第1の実施例における、端末システムおよびサーバシステムの処理手順の概要を示したフロー図。 第1の実施例における、屋外の現実空間でのマーカ及びビルと、カメラ位置・向きの撮像範囲の移動状況の関係を表す図。 第1の実施例における、世界座標系データベース作成・更新処理を行うユニットを説明する図。 第1の実施例における特徴量DB内のデータ構造の例を示す図。 第1の実施例における世界座標系DB内の、特徴点座標のデータ構造の例を示す図。 世界座標系DB内のデータ構造の例を示す図。 ビルの横に、マーカに関連する情報として仮想的な3Dオブジェクト(ロケット)が配置された例を示す図。 特徴点のグループ化対応付けを行うユニットの処理手順を示すPAD図。 移動ベクトルと対応付けデータとの関係を説明する模式図。 現実空間にある2つのマーカと、カメラで連続的に撮影された3つの特徴点フレームとの関係を示す図。 自然特徴点群の照合により、異なるフレーム内の2つのマーカの位置を推定して、世界座標系DBを生成する例の説明図。 マーカが視野にありマーカ識別が成功したときに、関連情報の2次元的な重ね合せ表示を行う構成例を示す図。 マーカが視野にありマーカ識別が成功したときに、マーカの関連情報の3次元的な重ね合せ表示をマーカに対して行う構成例を示す図。 視野の近くのマーカの位置・姿勢を推定し、マーカの関連情報や世界座標系DBの座標に対応づけられた情報を、映像と重ね合わせ表示する構成例を示す図。 マーカ識別が成功したときに、撮影映像に無い情報で、かつ、マーカの関連情報や世界座標系DBの座標に対応づけられた情報を、映像と重ね合わせ表示する構成例を示す図。 マーカ識別に失敗した場合に、マーカ周辺の撮影映像を利用してそのマーカの位置・姿勢を推定し、オブジェクトを重ね合せて表示した映像を示す図。 本発明の第2の実施例になる、世界座標系データベース作成および利用を行うシステムを示した機能モジュールの一例を示すブロック図。 本発明の第3の実施例になる、世界座標系データベース作成および利用を行うシステムを示した機能モジュールの一例を示すブロック図。
 本発明は、マーカ以外の周囲環境から抽出する自然特徴とマーカとを併用し、自然特徴をグループ化し、追跡し、照合することで、複数の映像中に含まれる自然特徴を対応づけて世界座標系データベース構築し、さらに、その情報を利用するサーバ及び端末に特徴がある。自然特徴としては、例えば、スケール不変量であるSIFT特徴量やSURF特徴量を用いることができる。
 また、本発明では、複数の映像中に含まれる自然特徴の空間座標系を、マーカを基準にすることで世界座標系に変換してデータベースに蓄積する。さらに、マーカの配置も世界座標系において表現し、映像中に含まれるマーカ周辺の自然特徴群と、過去に蓄積された自然特徴とを、世界座標系の座標群において照合することで、マーカの位置・姿勢を推定する。
 以下、図を参照しながら、本発明の実施例になる、世界座標系データベース作成および利用を行う端末システムおよびサーバシステムの構成例について、詳細に説明する。なお、世界座標系は、ネットワークを介して不特定の端末ユーザやプロバイダが、実世界及びAR空間を表現するために、共通に利用できる座標系であれば良い。以下の説明では、このような共通の座標系として、世界座標系を用いるものとする。本発明で用いる世界座標系は、このような用途に適したものであれば、例えば地球座標系等、他の用語で定義されているものも含まれることは言うまでも無い。
 また、本発明では、映像の1つのフレーム内で共通の座標をフレーム内共通座標系、複数のフレーム間で共通する座標をフレーム間共通座標系と定義する。さらに、実世界におけるカメラの位置や姿勢を表すための座標系をカメラ座標と定義する。さらに、本発明では指標(マーカ)を実際の世界に配置あるいは表示されて、ネットワーク上に用意された関連情報との対応付けが事前になされたもの、あるいは対応付けが事後に可能なものと定義する。
 本発明の第1の実施例を、図1ないし図16を参照しながら説明する。  
 図1に、本発明の第1の実施例になる、世界座標系データベース作成および利用を行う、端末システムおよびサーバシステムの構成例を示す。図1の例では、複数のクライアント端末11、12、13(端末A、端末B、端末N、以下単に端末N)がインターネットまたは公衆回線などの通信ネットワーク14を介して、1つのサーバ15と接続されている。端末やサーバは、指標に関連した情報を提供するプロバイダ16とも接続可能である。ここではこのようなサーバ・クライアントの構成が可能なシステム構成を、以下に説明する。また、サーバ・クライアント間の通信データとして、映像を送受する場合のシステム構成を示す。なお、サーバ及び端末は、いずれも、少なくとも1つのコンピュータを備えており、プログラムをメモリ上で実行させることにより、所定の機能が実現されるように構成されている。
 実世界上の特定の被写体、例えばビル10や柱等には、実世界のカメラの撮影映像と重ねてAR表示を行うための関連情報を提供する機能を有する指標(マーカ)が設置されている。端末11、12、13には、夫々、少なくとも、動画撮影機能を有するカメラ101、表示部112、およびAR表示処理機能130が搭載されている。AR表示処理機能130は、以下に述べるように、プロバイダ16から提供される関連情報をカメラの撮影映像と重ねて表示部112にAR表示する機能を備えている。サーバ15には、カメラ101から受信した撮影映像を保持する映像バッファ150、この撮影映像の自然特徴量を抽出する特徴抽出部151(自然特徴抽出部102、特徴フレームバッファ106(図4参照))と、この撮影映像から指標(マーカ)の有無を検出する指標検出部103と、検出された指標を識別する指標識別部104と、検出された指標に関連するAR表示を行うための情報をネット経由でプロバイダ16から取得する関連情報取得部105と、自然特徴が抽出された複数の映像フレームに関してこれらの映像フレーム間の特徴量の対応付けを行う特徴グループ化対応付け部107と、抽出された特徴量を保持する特徴量DB108と、カメラと指標の相対的な位置および姿勢を推定する位置・姿勢推定部152(カメラとマーカの位置・姿勢推定部109(図4参照)、マーカ位置推定部116(図15参照))とが搭載されている。サーバ15にはさらに、位置・姿勢が既知の指標を基準にして、前記映像フレーム内の未知の指標および自然特徴量の座標(フレーム内共通座標、または、フレーム間共通座標)を、世界座標系の座標に変換する世界座標系変換部153(世界座標系へのマッピング部113(図4参照)と世界座標系での照合部114(図15参照))と、世界座標系での座標データを蓄積する世界座標系データベース115(図15参照)と、カメラ動き補完部154(カメラ動き補完部110(図13参照)、カメラ座標系への投影部117(図15参照))と重ね合わせ表示処理部111とが搭載されている。重ね合わせ表示処理部111では、マーカ関連情報と映像バッファ150に保持されていた撮影映像とが、タイミング調整しながら重ね合わせ処理され、表示用データとして端末へ送信される。さらに、必要に応じて、地図変換部156、地図重ね合わせ部155も搭載される。
 図2に基づいて、第1の実施例における、端末システムおよびサーバシステムの処理手順の概要を説明する。サーバ15では、いずれかの端末N13のカメラ(動画撮影部)101で撮影された映像フレームの保持、更新の処理と、この映像フレームの情報に基づく、世界座標系データベース作成、更新の処理と、この映像フレームの情報にAR表示を行うための関連情報を付加して端末Nの表示部に表示するための処理とが、並行して実行される。すなわち、端末N13からカメラで撮影した映像がサーバ15に送信されると、この映像はフレーム単位で映像バッファに保持される。サーバ15では、この映像についてフレーム毎に自然特徴抽出の処理や指標検出、指標識別の処理がなされる。
 そして、これらの処理の結果を利用して、世界座標系データベース作成、更新の処理では、特徴量データベースを作成し、さらに、世界座標系データベースの作成、更新の処理がなされ、その結果が世界座標系データベース115に蓄積される。
 また、自然特徴抽出の処理や指標検出、指標識別の処理の結果を利用して、AR表示を行うための関連情報が取得され、カメラの動きを補完して関連情報の提示位置を調整したうえで、この関連情報と映像との重ね合わせ処理がなされ、その処理結果が端末Nに送信され、これに基づいて、端末Nの表示部112に自ら撮影した映像と、この映像に関連するAR表示関連情報とが、重ね合わせて端末Nの画面に表示される。これらの処理に際しては、特徴量DB108や世界座標系データベース115の情報も利用される。
 なお、地図変換部155はカメラ座標から世界座標系に対応付いた地図上の座標に変換する機能を有し、地図重ね合わせ部156は、カメラの位置を地図上に重ねて表示する機能を有する。これにより、ユーザは、風景を撮影するだけで、ユーザ自信の現在地を把握することができるという効果がある。
 図3は、端末Nのカメラ動画撮影部101で撮影された3つの映像フレームと現実空間との関係の一例を示す図である。現実空間として、ここでは屋外の複数のビルとマーカとが示されている。202はビル10Aに設置されたマーカA、203~205はカメラ位置・向きを示す。201はカメラ位置・向き203からの撮像範囲、206はカメラ位置・向き204からの撮像範囲、207はカメラ位置・向き205からの撮像範囲、208は他のビルDに設置されたマーカBを示している。カメラ動画撮影部101で撮影された動画、すなわち各々、撮像範囲201、撮像範囲206、撮像範囲207に対応する、各映像フレーム209、210、211のデータは、逐一、サーバ15に送信される。
 [世界座標系データベースの作成・更新処理]
 世界座標系データベース作成・更新処理について、図4~図12を参照して説明する。
最初に、世界座標系データベース作成・更新処理を行うユニットの機能について説明する。図4において、カメラ動画撮影部101で撮影された動画の映像フレームから、自然特徴抽出部102にて自然特徴が抽出される。特徴フレームバッファ106にて、自然特徴量がフレーム毎にまとめられてバッファリングされる。これらフレーム単位のデータは、特徴DB108に蓄積されると同時に、特徴点のグループ化対応付け部107へ入力される。
 特徴DB108内のデータ構造の一例を、図5に示す。フレーム番号は、映像フレームを示す番号である。画面上の点の座標は、フレーム内共通座標系におけるあるフレームでの特徴点を区別する番号(1,2,3,-)と、画面上での各特徴点の座標X,Y(2次元)を示すデータ(10,20等)で構成される。それが特徴点の数だけフレームごとに格納される。
 自然特徴抽出部102での、自然特徴の抽出方法として、SIFT特徴量(非特許文献1参照)やSURF特徴量(非特許文献2参照)、その他の公知の方法を用いることができる。いずれもロバストに抽出可能なスケール不変量として得られる。ただし、抽出される特徴量は、画像または映像フレーム中の座標が特定できる情報であれば、点や線分、その他の色・形状等のものでもよい。
 特徴点のグループ化対応付け部107では、特徴点が小グループにまとめられ、連続したフレーム間で追跡されて対応付けが行われる。あるいは、連続したフレーム間での小グループの追跡が、遮蔽やカメラアングルの急な変更などで中断した場合、照合処理を行うことで離れたフレーム間での小グループ群の対応付けがなされる。また、特徴フレームバッファ106および特徴DB108から読みだされる任意の2つのフレーム間で小グループの入れ替え度合いの大小に応じて、2種類の対応付けデータが生成され、カメラとマーカの位置・姿勢推定部109へ入力される。マーカ識別部104からのマーカ識別情報とその座標を特徴点として扱う。なお、特徴点のグループ化対応付け部107については、図9を参照して改めて説明する。
 カメラとマーカの位置・姿勢推定部109では、対応付けデータによって対応付けされた小グループ群を実空間上にはマーカは実在しないが計算上仮想的に定義された仮想マーカとして扱い、カメラの位置・姿勢およびマーカおよび仮想マーカの位置・姿勢を推定する。推定された位置・姿勢を示す座標データは世界座標系へのマッピング部113へ入力される。
 この推定方法には、例えば非特許文献3に記載の公知の方法を用いることが出来る。
 一方、カメラ動画撮影部101からの映像フレームは、マーカ検出部103へも入力されて、実空間上に設置されたマーカが検出される。さらに、検出されたマーカが表現している情報が、マーカ識別部104によって識別される。このマーカはURLや情報IDなどのリンクやキーワード等を表現することが可能である。
 このとき、必要に応じてマーカの関連情報も取得され、世界座標系へのマッピング部113へ送付される。すなわち、関連情報取得部105で、リンク情報であればリンク先の情報を、キーワード等であればそれを検索キーとして検索した情報をマーカ関連情報として、プロバイダ16等からネット経由で取得する。関連情報取得部105は、システム外部のデータベースやWeb情報を遂次入手することも可能であるが、その内部にマーカ関連情報のデータベースを保有していてもよい。
 また、カメラとマーカの位置・姿勢推定109で、フレーム毎の座標系(フレーム内共通座標系)が複数のフレーム間での共通座標系(フレーム間共通座標系)に変換される。取得されたマーカ関連情報が、テキストや画像のデータであれば、3次元的なCGオブジェクトに貼り付けられ、あるいは3次元的なCGオブジェクトであればサイズのスケールが調整されて、世界座標系へのマッピング部113へ送付される。
 世界座標系へのマッピング部113では、位置と姿勢が世界座標系で既知のマーカを用いて、推定されたマーカおよび仮想マーカの座標を世界座標系へマッピングされる。マーカが既知であるか否かについては、マーカ識別情報を世界座標系DB115で検索し、登録されているか否かで確認する。すなわち、既知のマーカは、マーカ識別情報に対応付けて世界座標系での座標データを世界座標系DB115に登録しておくものとする。
 もし、検出されたマーカが既知のマーカであった場合、そのマーカについてカメラとマーカの位置・姿勢推定部109で推定された相対的な位置・姿勢情報が、世界座標系として登録された位置・姿勢情報と同一であることが判明する。そのため、その相対的な位置・姿勢情報が世界座標系への位置・姿勢情報へ変換されるような変換処理を、未知のマーカおよび自然特徴に対しても適用することで、世界座標系へのマッピングを実現する。こうして得られた未知のマーカおよび自然特徴の世界座標系での座標データは世界座標系DB115へ登録される。
 同様に、自然特徴抽出部102、特徴フレームバッファ106、特徴点のグループ化対応付け部107、カメラとマーカの位置・姿勢推定109を経由して世界座標系へのマッピング113に入力される自然特徴量のフレーム間の共通座標系(フレーム間共通座標系)も、その座標変換式で、世界座標へ変換し、世界座標系DB115へ格納する。
 図6に、世界座標系DB115内の、特徴点座標のデータ構造の一例を示す。この例は、世界座標系が緯度、経度、高さで表現された例である。  
 特徴度合いとは、特徴点の抽出しやすさの指標で、高いほど確実に抽出しやすいことを示し、特徴点の照合の際の重みとして使われる(SIFT、SURF特徴量を参照)。  
 照合回数は、その特徴点の(撮影回数-1)と同じ。照合して、成功するたびに照合成功数が増え、特徴点の信頼度が増していく。  
 特徴点の信頼度=照合成功数/照合回数
 照合の頻度を減らして計算速度を高速化、効率化するような場合に、特徴点の信頼度が高い特徴点が優先的に照合に利用される。  
 登録日時は、経時変化で変わりうるため(ビルがなくなったとか、マーカの印刷がかすれたとか)、情報の古さを比較できる。情報を更新する目安となる。  
 関連情報IDは、次のテーブルのエントリーを示す。
 図7に、世界座標系DB内のデータ構造の例を示す。このデータ構造は、図8に示した、ビルの横に、関連情報取得部105で取得されたマーカに関連する情報として、仮想的な3Dオブジェクト(ロケット)が配置された例に対応している。
 なお、本発明において、マーカの点は、「マーカ特徴点」、マーカが無い点は、「自然特徴点」、両者合わせて、「特徴点」と定義する。  
 姿勢方向X,Y,Zは、オブジェクトの配置の基準となる平面に対する法線ベクトルを示す。基準点IDは、その平面に含まれる特徴点の一つを示すものであり、オブジェクトを配置する中心点付近の特徴点を採用する。マーカ構成点IDは、マーカを構成する複数の特徴点を示す。オブジェクトIDは、2Dや3Dのオブジェクトを指し示す。例えば、AR表示を行うためのロケットの3Dデータを特定するIDがオブジェクトIDの一例である。URLは、プロバイダ等、関連情報IDに対応づけられるその他の情報への参照先を示す。
 図8に示したように、マーカAと関連づけられた道路上の自然特徴点(点ID=5)の位置で、道路の法線方向にAR表示を行うロケットの向きが向けられている。すなわち、図8において、701は、マーカAのマーカ特徴点(点ID=1)、702はマーカAのマーカ特徴点(点ID=2)、703は白線の自然特徴点(点ID=5)、704は道路、705はマーカAのマーカ特徴点(点ID=3)、202はマーカA、707はマーカAのマーカ特徴点(点ID=4)、708はビル、709は道路の法線ベクトル、710はAR表示を行う3Dオブジェクト(ロケット、オブジェクトID=1)を示している。
 世界座標系へのマッピング113では、マーカ識別部104、特徴点のグループ化対応付け部107、カメラとマーカの位置・姿勢推定109を経由して、マーカのフレーム間共通座標(1)と識別情報が入力される。世界座標DB115では、マーカの世界座標(2)と識別情報が格納されており、マーカの識別情報が一致したものについて、フレーム間共通座標(1)と世界座標(2)が実は同一のものであるので、フレーム間共通座標(1)から世界座標(2)への座標変換式を作成する。
 このようにして、それ以前に世界座標系での座標データが未知のマーカがあっても、既知のマーカとの関係において世界座標系での座標データを確定して登録することによって未知のマーカが既知となる。
 次に、図9を参照して特徴点のグループ化対応付け部107について説明する。
図9は、特徴点のグループ化対応付けを行うブロックの処理手順を示すPAD図である。
 特徴点のグループ化対応付け部107の処理901は、以下のステップで処理される。まず初期化処理として、状態を「追跡」にセットする(ステップ902)。下記の特徴点フレームバッファ106のデータを全て処理するまで、ステップ905~915を繰り返す(ステップ903)。ステップ905では、特徴点フレームが特徴点フレームバッファ106から取得される。ステップ906にて、近傍の3点以上の特徴点で小グループを生成し、フレーム内の全ての特徴点を小グループ群にまとめ上げる。ステップ907にて、小グループを連続するフレーム間で追跡し、対応付けのための移動ベクトルを算出する。
 ステップ908では、状態が判定され、状態が「追跡」であれば、次のステップ909へ進み、状態が「追跡中断」であれば、ステップ910へ進む。ステップ909では、ステップ907の処理結果を判定して追跡不能を検出した場合、ステップ914へ進む。ステップ914では、直前のフレームの小グループ群を「保存A」として保存し、ステップ915にて状態を「追跡中断」へ遷移させる。次の繰り返し処理にて、ステップ908で状態が「追跡中断」であった場合、ステップ910へ進む。ステップ910では、現在のフレームの小グループ群と保存した小グループ群「保存A」とを照合し、ステップ911にて合致と判定した場合、ステップ912にて「保存A」からの対応付けを行った移動ベクトルを算出する。ステップ913にて、状態を「追跡」へ遷移させる。
 ステップ904では、用意する特徴点フレームが尽きるまで次の処理(ステップ916~920)を繰り返す。ステップ916では、移動ベクトルの連鎖によって連なる特徴点フレームから、2つの特徴点フレームを用意する。特徴点フレームの選び方として、入替率算出が未処理の任意の2つの特徴点フレームのペアを用意することもできるが、組み合わせが膨大になる場合には、マーカ識別部104からのマーカ識別情報とその座標を含む複数のフレームと、その間に並ぶフレームからサンプリングして得られるフレームを用意してもよい。ステップ917では、特徴点の入替率を算出する。なお、入替率は、用意された1つ目のフレームに存在する特徴点の全数に対する、1つ目のフレームから2つ目のフレームへ移動ベクトルによって対応付かない特徴点の数の比率と定義する。ステップ918にて、算出された入替率がX%以下の場合、ステップ919にて特徴点フレームのペアとその間の移動ベクトルを対応付けデータ出力1として出力する。ステップ918にて、X~Y%の場合、ステップ920にて特徴点フレームのペアとその間の移動ベクトルを対応付けデータ出力2として出力する。なお、XおよびYの値はX<Yである。
 Xの値は、カメラとマーカの位置・姿勢推定部109にて、マーカや特徴点の位置・姿勢の推定に使用されることを想定したもので、マーカや特徴点の多くが同じフレームに含まれるような異なる視点のフレームを選び出すために設定する。よって、位置・姿勢の推定精度を高めるために視差が十分にあるが極力多くのマーカや特徴点が共通に含まれるように、Xの値は小さく設定される。Yの値は、カメラとマーカの位置・姿勢推定部109にて、同一フレームに存在しないマーカを含む複数のフレームを、移動ベクトルの連鎖でつなぐための特徴点フレームを選びだすために設定する。間をつなぐ特徴点フレームの枚数が増えると、誤差が蓄積して位置・姿勢の推定精度が低下するため、極力少ない枚数となるように、Yの値は大きく設定される。XおよびYの値は選び出される特徴点フレーム数の枚数等に応じて動的に変更してもよい。
 ここで、移動ベクトルと対応付けデータとの関係を図10の模式図を用いて説明する。1001は、ある特徴点フレームにおける一つの特徴点を示す。1003は、別の特徴点フレームにおける同じ特徴点を示す。この特徴点は1001の位置から1003の位置へ移動したことを示す。上記の移動ベクトルとは、この移動の向きと長さを示す1002の情報のことである。一方、対応付けデータとは、特徴点フレームを特定する情報と、その特徴点を特定する情報として1001のような座標情報と、その移動ベクトルで構成される。
 以上の手法によれば、複数のマーカが同一フレームに含まれないような撮影状況においても、それらのマーカの相対的な位置・姿勢関係を、補助マーカを用いずに特定することができる。
 本発明によれば、それ以前に世界座標系での座標データが未知のマーカがあっても、既知のマーカとの関係において世界座標系での座標データを確定して登録することによって未知のマーカが既知となる。また、現在のカメラの位置・姿勢も世界座標系へマッピングする。
 世界座標系DB作成に基づく、本発明の効果を、図11、図12で説明する。ここでは、自然特徴点を介して映像中の同一フレーム内に存在しない複数のマーカの位置・姿勢の相互の関係を特定する機能について述べる。
 図11において、カメラ位置・向き203のときには、撮像範囲201が撮影されており、その際のマーカA202および自然特徴点を示したものが特徴点フレーム209である。カメラ位置・向き204のときには、撮像範囲206が撮影されており、その際の自然特徴点を示したものが徴点フレーム210である。また、カメラ位置・向き205のときには、撮像範囲2007が撮影されており、その際のマーカB208および自然特徴点を示したものが特徴点フレーム211である。現実空間にマーカは2つあるが、カメラのフレーム209、211内には1つしか見えていない。一方、カメラのフレーム210内にはマーカが1つも見えていない。本発明によれば、特徴点フレーム209の中ではマーカAと自然特徴点群(FAとする)との位置・姿勢の関係が特定される。一方、特徴点フレーム211の中ではマーカBと自然特徴点群(FBとする)との位置・姿勢の関係が特定される。そして、それらの間にある特徴点フレーム210の中では自然特徴点群FAと自然特徴点群FBとの位置・姿勢の相互の関係が特定される。このようにして、中間の特徴点フレーム210を介して、現実空間で離れた位置にある2つのマーカA202とマーカB208の位置・姿勢の関係が特定される。
 また、図12は、移動ベクトルと対応付けデータとの関係を説明する模式図である。ここで想定している状況は、図11の場合と同様、道路を前にしてビルが4棟並んでいる風景である。マーカはA,Bの2つ(202と208)あるが、1つの映像として取得出来るフレーム201内には1つのマーカA202しか見えていない。しかも、見えているマーカAは遠すぎるため、映像中では小さく、マーカ識別ができない。本発明によれば、世界座標系データベース115内に、事前に1003の自然特徴点群とマーカA,マーカBとの位置関係が格納されている。従って、マーカA202もマーカB208もマーカ識別できていない場合であっても、自然特徴点群の照合により、マーカAとマーカBの位置が推定できるため、そこに関連情報(オブジェクト)を重ねることが出来る。
 このように、同一フレームに含まれない複数のマーカの相対的な位置・姿勢関係を、補助マーカを用いずに特定することができる世界座標系データベースを構築することができる。また、マーカ自体を撮影できなくとも、あるいは、マーカの検出または識別に失敗した場合でも、マーカ周辺を撮影することで、そのマーカの位置・姿勢を推定可能な世界座標系データベースを提供することができる。
 また、世界座標系データベースが複数の端末利用者によって共有され、繰り返し利用されることにより、サービス利用者がさまざまな位置からマーカやマーカ周辺を撮影してサーバへ登録するたびに、自然特徴点による、その場における空間モデルが世界座標系で構築され、多くのサービス利用者が利用するたびにデータが増え、データベースの信頼度が増す。
 [関連情報と映像との重ね合わせ処理]
 次に、上記世界座標系データベース115を利用した、サーバ15における関連情報とカメラの映像との重ね合わせ処理機能について、図13~図17を参照しながら、説明する。この、関連情報と映像との重ね合わせ処理には、以下に述べるように、状況に応じた複数の方式がある。カメラの映像とマーカの関係等に応じていずれか最適の方式が選択される。
 まず、図11のカメラのフレーム209、211のように、マーカが視野にあり、しかも、マーカ識別が成功したときに、カメラ動画と関連情報の2次元的な重ね合せ表示する処理方式の例を、図13に示す。
 カメラ座標系への投影部117では、世界座標系へマッピングされたカメラ位置・姿勢およびそこから撮影されているマーカ関連情報の世界座標系での位置・姿勢が分かるため、マーカ関連情報の位置・姿勢をカメラ座標系へ投影変換を行う。マーカ関連情報出力の経路118により、関連情報取得部105のマーカ関連情報はカメラ動き補完部110へ直接入力される。
 カメラ動き補完部110は、カメラの素早い揺れや動きに、マーカ関連情報を追随させるためのものである。例えば、特徴フレームバッファ106の2次元的な特徴点にマーカ関連情報の座標を追随させる方法や、6軸の加速度センサを搭載した端末であれば、カメラの位置や姿勢の変化に応じてマーカ関連情報の座標を追随させる方法などを使うことが出来る。
 マーカ関連情報は、映像との重ね合せ部111で、カメラ動画撮影された映像とタイミング調整しながら重ね合わされ、表示部112にて表示される。
 この方式では、マーカが視野にありマーカ識別が成功したときに、カメラ動画と関連情報との2次元的な重ね合せ表示が出来る。ただし、映像の3次元構造は不明なので、マーカの情報を2次元的に重ね合せることしかできない。関連情報を、例えば単なるテキスト情報の形で、吹き出しのように表示する際には有用である。
 次に、図14に、図11のカメラのフレーム209、211のように、マーカが視野にあり、しかも、マーカ識別が成功したときに、さらに、マーカの関連情報の3次元的な重ね合せ表示をマーカに対して行う処理方式の例を示す。マーカの位置・姿勢を推定し、カメラ動き補完部110に利用するための、カメラとマーカの位置・姿勢推定部109が追加されている。カメラ動き補完部110では、3次元オブジェクトをカメラ座標系での位置・姿勢に変換する。マーカの3次元的な位置と姿勢が分かっているため、関連情報として3次元オブジェクトをマーカの位置と姿勢に合わせて、まるで実際にその場に3次元オブジェクトが置かれているかのように配置することが可能である。なお、カメラとマーカの位置・姿勢推定部109に代えて、6軸加速度センサを使ってカメラの向きや動きを検出する方法もある。
 3次元オブジェクトは、動くオブジェクト(フィギュアとかアバターとか)であってもよく、その場合の更新された情報がデータフロー118を介してカメラ動き補完部110に供給される。
 次に、図15に、カメラのフレーム210のようにマーカが視野に無い場合や、図11のカメラのフレーム209、211のようにマーカが視野にあるにも拘わらずそれを検出できない場合の処理方式について説明する。これらの場合は、視野近くのマーカの関連情報や世界座標系DBの座標に対応づけられた情報を利用して、映像と重ね合わせ表示する。この例では、マーカ周辺を撮影することで、そのマーカの位置・姿勢を推定し、オブジェクトを重ね合せて映像を表示する。
 例えば、マーカの検出または識別に失敗したケース、およびまだカメラ映像中にはマーカ全体が映されていないケースにおいては、世界座標系での照合部114にて、カメラ映像からの自然特徴の世界座標系での位置が照合され、マーカ位置推定部116にて、その近辺に存在するマーカが特定される。その特定されたマーカの情報を識別されたマーカ情報の代わりに関連情報取得部105に入力させる。こうして、マーカが識別できなくとも、あるいは映されていなくとも、マーカ関連情報を出力することができる。
 この例では、カメラ動画撮影部101、自然特徴抽出部102、特徴フレームバッファ106と、特徴点のグループ化対応付け部107、及びカメラとマーカの位置・姿勢推定部109で、フレーム間共通座標系が用いられる。カメラとマーカの位置・姿勢推定部109では、特徴フレームを使ってカメラの動きを検出する。この機能に代えて、6軸加速度センサを使ってカメラ動きを検出する方法もある。また、フレーム間共通座標系を用いて、世界座標系データベース115での照合を行い、マーカ位置と識別子を取得する機能(世界座標系での照合部114)が追加されている。すなわち、照合部114は特徴点群を世界座標系で照合し、近辺のマーカ位置と識別子を取得する。また、その照合結果を利用して、カメラフレームでのマーカ位置を推定する機能(マーカ位置推定部116)も追加されている。さらに、3次元オブジェクトをカメラ座標系での位置・姿勢に変換する機能(カメラ座標系への投影部117)も追加されている。3次元オブジェクトは、動くオブジェクト(フィギュアとかアバターとか)であってもよく、その場合の更新された情報がデータフロー118で供給される。
 図16に、マーカ識別に成功したときに、カメラの撮影映像に無い情報で、かつ、マーカの関連情報や世界座標系DBの座標に対応づけられた情報を、映像と重ね合わせて端末の表示部に表示する構成例を示す。この例では、マーカ識別結果に基く情報よりも、よりきめ細かい豊富な情報をユーザに提供することができる。
 図17に、マーカ識別に失敗した場合に、マーカ周辺の撮影映像を利用することで、そのマーカの位置・姿勢を推定し、オブジェクトを重ね合せて表示部に表示した映像の例を示す。1503はフレーム、710はマーカA202と関連付いたオブジェクト(ロケット)、1504はマーカB208と関連付いた関連情報(文章)である。この例では、マーカA202の識別に失敗したにも拘わらすマーカA202に対応するオブジェクト(ロケット)710のAR表示がなされている。また、フレーム1503には入っていないもののフレーム1503の直ぐ近くにあるマーカB208に関する文章情報1504も、フレーム1503内に重ねて表示されている。
 このように、本実施例によれば、マーカが視野にない、あるいはマーカ識別をしなくても、視野近くのマーカの関連情報や世界座標系DBの座標に対応づけられた情報を、映像と重ね合わせ表示できる。周辺の3次元構造が分かっているため、視野の近くのマーカの関連情報やその他の情報として3次元オブジェクトを3次元空間に合わせて、まるで実際にその場に置かれているかのように配置することが可能である。また、マーカの関連以外の3次元オブジェクトを世界座標系DBの座標に対応付けて格納しておくことで、マーカ以外の空間にも3次元オブジェクトを重ね合せて表示することができる。この点が、世界座標系DBを使う最大のメリットである。
 以上述べた実施の形態によれば、複数のマーカが同一フレームに含まれないような撮影状況においても、それらのマーカの相対的な位置・姿勢関係を、補助マーカを用いずに特定することができる。
 また、マーカ自体を撮影できなくとも、あるいは、マーカの検出または識別に失敗した場合でも、マーカ周辺を撮影することで、そのマーカの位置・姿勢を推定することができる。そして、実空間の撮影映像におけるマーカの位置・姿勢に合わせた形で、マーカ関連情報である2次元または3次元のCGオブジェクトを撮影映像に重ねて表現することができる。
 端末のユーザにとっては、マーカ自体を撮影できなくとも、マーカ関連情報やその他の情報について、AR表示により提供を受けることができ。他方、プロバイダにとっては、マーカの位置や姿勢を高い精度で世界座標系DBに登録していない場合でも、端末のユーザがそのマーカの周辺を撮影することでサービスの提供が可能になる利点がある。また、サービス利用者がさまざまな位置からマーカやマーカ周辺を撮影してサーバへ登録する、換言すると、多くのサービス利用者が利用するたびに、世界座標系データベースのデータが増え、データベースの信頼度が一層増し、マーカ関連情報やその他の情報についてのサービスが充実されるという、端末のユーザ及びプロバイダの双方にとっての利点もある。
 実施例1のシステム構成例によれば、端末は動画の撮影および表示の処理だけでよいが、通信負荷が高くなる。また、端末の数が多い場合には、サーバ負荷が高くなる。そこで、通信負荷やサーバ負荷を軽減した実施例について述べる。
 図18は、本発明の第2の実施例になる、世界座標系データベース作成および利用を行うシステムを示した機能モジュールの一例を示すブロック図である。本実施例では、サーバ・クライアント間の通信データとして、特徴点データやマーカ関連情報など処理済みのデータを送受するように構成されている。端末1701~1703には、図1に示した、端末13のカメラ101と、サーバ15の特徴抽出部151と、マーカ検出部103と、マーカ識別部104と、関連情報取得部105と、カメラ動き補完部154と、映像との重ね合せ部111と、映像バッファ150と、端末13の表示部112とAR表示処理機能130とが搭載される。サーバ1705には、サーバ15のそれ以外の機能部位が搭載される。各端末とサーバ1705とプロバイダ1706は、通信ネットワーク1704を介して、接続されている。
 以上のシステム構成によれば、映像に対する処理を端末1701~1703で行うことによって、サーバ1705との間で通信データとして映像を送受する必要がなくなるため、実施例1に比較して、端末負荷は高まるが、システムの通信負荷およびサーバ負荷が軽減される。
 ここでは、通信負荷およびサーバ負荷をさらに軽減した実施例について述べる。サーバ・クライアント間の通信データとして、マーカ関連情報と推定済みの位置・姿勢情報を送受する場合のシステム構成を示す。端末1801~1803には、図1における、端末13のカメラ動画撮影部101と、サーバ15の特徴抽出部151と、マーカ検出部103と、マーカ識別部104と、関連情報取得部105と、特徴フレームバッファ106と、特徴点のグループ化対応付け部107と、カメラとマーカの位置・姿勢推定部152と、カメラ座標系への投影部117を含むカメラ動き補完部154と、映像との重ね合せ部111と、映像バッファ150と、端末13の表示部112とAR表示処理機能130とが搭載される。サーバ1805には、それ以外の機能部位が搭載される。サーバ1805は基本的に世界座標系データを扱う部分と、特徴点フレームDBを扱う部分、及び必要に応じて地図変換部、が搭載される。各端末とサーバ1805とプロバイダ1806は、通信ネットワーク1804を介して、接続されている。
 以上のシステム構成によれば、ほとんどの処理を端末1801~1803で行うため、実施例1、2に比較して、端末負荷は高まるが通信負荷およびサーバ負荷が軽減される。
 以上のいずれの実施例のシステム構成においても、サービス利用者がさまざまな位置からマーカやマーカ周辺を撮影してサーバへ登録するたびに、自然特徴による、その場における空間モデルが世界座標系で構築される。
 なお、カメラおよび表示部は端末に、世界座標系データを扱う部分はサーバに配置する必要があるが、それ以外の機能を端末やサーバのいずれに持たせるかは、用途、端末やサーバの処理能力等に応じて適宜設定すればよく、上記実施例の配置例に限定されるものではない。
 本発明は、例えば、携帯電話やモバイル端末、ヘッドマウントディスプレー等を介して見ている対象物の情報を提供する情報検索サービスおよび対象物の補足情報を提供することによる作業支援システム等に利用可能である。
10 ビル、
11 端末A、
12 端末B、
13 端末N、
14 通信ネットワーク、
15 サーバ、
16 プロバイダ、
101 カメラ(動画撮影部)、
102 自然特徴抽出部、
103 マーカ検出部、
104 マーカ識別部、
105 関連情報取得部、
106 特徴フレームバッファ、
107 特徴点のグループ化対応付け部、
108 特徴量DB、
109 カメラとマーカの位置・姿勢推定部、
110 カメラ動き補完部、
111 映像との重ね合せ部、
112 表示部、
113 世界座標系へのマッピング部(世界座標系変換部)、
114 世界座標系での照合部、
115 世界座標系データベース(世界座標系DB)、
116 マーカ位置推定部、
117 カメラ座標系への投影部、
118 マーカ関連情報出力の一経路、
130 AR表示処理機能、
201 カメラ位置・向き203からの撮像範囲、
202 マーカA、
203 カメラ位置・向き203、
204 カメラ位置・向き204、
205 カメラ位置・向き205、
206 カメラ位置・向き204からの撮像範囲、
207 カメラ位置・向き205からの撮像範囲、
208 マーカB、
209 撮像範囲201の特徴点フレーム、
210 撮像範囲206の特徴点フレーム、
211 撮像範囲207の特徴点フレーム、
701 マーカAのマーカ特徴点(点ID=1)、
702 マーカAのマーカ特徴点(点ID=2)、
703 白線の自然特徴点(点ID=5)、
704 道路、
705 マーカAのマーカ特徴点(点ID=3)、
707 マーカAのマーカ特徴点(点ID=4)、
708 ビル、
709 道路の法線ベクトル、
710 3Dオブジェクト(ロケット)(オブジェクトID=1)、
1001 ある特徴点フレームにおける特徴点、
1002 移動ベクトル、
1003 別の特徴点フレームにおける特徴点。

Claims (20)

  1.  端末のカメラで撮影された映像を受信する機能と、
     前記映像を構成する複数の映像フレームについて、各映像フレーム内の自然特徴量を抽出し、特徴量データベースに蓄積する特徴抽出部と、
     AR関連情報を特定するための指標を、前記各映像フレームから検出する指標検出部と、
     検出された前記指標を識別する指標識別部と、
     前記複数の映像フレームの前記自然特徴量の間の対応付けを行う特徴グループ化対応付け部と、
     前記カメラと前記指標との相対的な位置および姿勢を推定する位置・姿勢推定部と、
     前記位置・姿勢が既知の前記指標を基準にして、前記映像フレームにおける未知の指標の座標および前記自然特徴量の座標を、世界座標系に変換する世界座標系変換部と、
     変換された前記世界座標系の座標データ及び関連する情報を蓄積する世界座標系データベースとを備えた
    ことを特徴とするサーバ。
  2.  請求項1において、
     前記指標は、前記カメラによる実世界の撮影映像と重ねてAR表示を行うための関連情報を提供する機能を有する
    ことを特徴とするサーバ。
  3.  請求項1において、
     前記特徴グループ化対応付け部は、
     前記映像フレーム内における3つ以上の前記自然特徴量を小グループ化し、前記自然特徴量の小グループを複数の前記映像フレーム間で追跡することで対応付けを行う
    ことを特徴とするサーバ。
  4.  請求項3において、
     前記特徴グループ化対応付け部は、
     前記連続したフレーム間での前記小グループの追跡ができない場合、離れた前記フレーム間での前記小グループ群の照合処理による前記対応付けを行う
    ことを特徴とするサーバ。
  5.  請求項3において、
     前記特徴グループ化対応付け部は、
     前記フレームから入れ替わる特徴量の数に応じて、対応付けデータを仕分けして出力する
    ことを特徴とするサーバ。
  6.  請求項3において、
     前記位置・姿勢推定部は、前記対応付けデータによって対応付けされた前記小グループ群を実空間上には前記指標は実在しないが計算上仮想的に定義された仮想指標として扱い、前記カメラの位置・姿勢および前記仮想指標の位置・姿勢を推定する
    ことを特徴とするサーバ。
  7.  請求項6において、
     前記位置・姿勢推定部は、前記映像の1つのフレーム内で共通するフレーム内共通座標系、または前記複数のフレーム間で共通するフレーム間共通座標系で、前記映像フレーム内の未知の指標および前記自然特徴量の座標を定義する
    ことを特徴とするサーバ。
  8.  請求項7において、
     前記世界座標系変換部は、前記フレーム間共通座標系で定義された前記映像フレーム内の未知の指標および前記自然特徴量の座標を、前記世界座標系に変換する座標変換式を有する
    ことを特徴とするサーバ。
  9.  請求項6において、
     前記世界座標系変換部は、位置と姿勢が前記世界座標系で既知の指標を用いて、推定された前記仮想指標の位置・姿勢を、前記世界座標系の座標に変換する
    ことを特徴とするサーバ。
  10.  請求項9において、
     指標の位置と姿勢が前記世界座標系で既知の2つのフレームを用いて、前記各フレーム内の前記指標及び前記自然特徴量を利用して、前記2つのフレームの間に存在するフレームの前記自然特徴量位置・姿勢を特定する
    ことを特徴とするサーバ。
  11.  請求項1において、
     前記端末から受信した新たな前記映像に基づく情報を逐次追加しながら前記世界座標系データベースを更新する
    ことを特徴とするサーバ。
  12.  請求項1において、
     検出された前記指標に関連するAR表示を行うための関連情報を取得する関連情報取得部と、
     前記カメラの動きに前記指標の関連情報を追随させるためカメラ動き補完部と、
     前記カメラで撮影された映像と前記指標に関連する関連情報とを重ね合わせ表示するための処理を行う重ね合せ処理部とを備えた
    ことを特徴とするサーバ。
  13.  請求項12において、
     前記カメラで撮影された映像フレームから前記指標が検出または識別されない場合に、前記自然特徴の位置を前記世界座標系データベースで照合し、前記指標位置を推定する位置・姿勢推定部を備え、
     前記重ね合わせ処理部は、前記推定された指標に基づく関連情報を前記カメラで撮影された映像と重ね合わせる
    ことを特徴とするサーバ。
  14.  請求項12において、
     前記カメラで撮影された映像フレームから前記指標が検出された場合に、該指標を前記世界座標系データベースで照合し、前記関連情報に加えて前記世界座標系データベースの情報を前記カメラで撮影された映像と重ね合わせる
    ことを特徴とするサーバ。
  15.  請求項13において、
     前記指標の関連情報を、前記カメラの座標系での位置・姿勢に変換する機能を備えている
    ことを特徴とするサーバ。
  16.  請求項13において、
     前記カメラで撮影された前記映像フレーム外でかつ該の直ぐ近くにある前記指標の関連情報を前記世界座標系データベースで照合し、
     該関連情報を前記カメラで撮影された映像と重ね合わせる
    ことを特徴とするサーバ。
  17.  請求項12において、
     前記カメラ動き補完部は、前記世界座標系へマッピングされた前記カメラ位置・姿勢およびそこから撮影されている前記指標の関連情報の前記世界座標系での位置・姿勢を前記世界座標系データベースで参照し、前記指標の関連情報の位置・姿勢を前記カメラの座標系へ投影変換する
    ことを特徴とするサーバ。
  18.  請求項6において、
     前記世界座標系変換部は、位置と姿勢が前記世界座標系で既知の指標を用いて、前記カメラの座標を共通の座標系に変換し、
     前記カメラ座標から前記世界座標系に対応付いた地図上の座標に変換し、
     前記カメラの位置を前記地図上に重ねて表示する
    ことを特徴とするサーバ。
  19.  ネットワークを介してサーバに接続可能に構成された端末であって、
     前記サーバは、端末のカメラで撮影された映像を構成する複数の複数の映像フレームの自然特徴量の間の対応付けを行う特徴グループ化対応付け部と、特徴量データベースと、前記カメラと指標との相対的な位置および姿勢を推定する位置・姿勢推定部と、前記位置・姿勢が既知の前記指標を基準にして前記映像フレームにおける未知の指標の座標および前記自然特徴量の座標を世界座標系に変換する世界座標系変換部と、変換された前記世界座標系の座標データ及び関連する情報を蓄積する世界座標系データベースとを備えており、
     前記端末は、
     前記カメラで映像を撮影する機能と、
     前記映像を構成する前記複数の映像フレームについて、各映像フレーム内の前記自然特徴量を抽出し、前記サーバの前記特徴量データベースに蓄積する特徴抽出部と、
     AR関連情報を特定するための前記指標を、前記各映像フレームから検出する指標検出部と、
     検出された前記指標を識別する指標識別部と、
     検出された前記指標に関連するAR表示を行うための関連情報を取得する関連情報取得部と、
     前記映像フレームにおける未知の指標の座標および前記自然特徴量の座標の情報を前記サーバへ送信し、前記サーバの世界座標系変換部で、前記位置・姿勢が既知の前記指標を基準にして、世界座標系に変換し前記世界座標系データベースに蓄積する機能と、
     前記位置・姿勢推定部の処理結果を受けて、前記カメラの動きに前記指標の関連情報を追随させるためカメラ動き補完部と、
     前記サーバの前記位置・姿勢推定部及び前記世界座標系変換部の処理結果を受けて、前記カメラで撮影された映像と前記指標に関連する関連情報とを重ね合わせ表示するための処理を行う重ね合せ処理部と、
     表示部とを備え、
     前記カメラで撮影された映像と前記指標に関連する関連情報とを重ね合わせて前記表示部に表示する
    ことを特徴とする端末。
  20.  ネットワークを介してサーバに接続可能に構成された端末であって、
     前記サーバは、特徴量データベースと、位置・姿勢が既知の指標を基準にして端末のカメラで撮影された映像を構成する複数の映像フレームにおける未知の指標の座標および自然特徴量の座標を世界座標系に変換する世界座標系変換部と、変換された前記世界座標系の座標データ及び関連する情報を蓄積する世界座標系データベースとを備えており、
     前記端末は、
     前記カメラで映像を撮影する機能と、
     前記映像を構成する前記複数の映像フレームについて、各映像フレーム内の前記自然特徴量を抽出し、前記サーバの前記特徴量データベースに蓄積する特徴抽出部と、
     AR関連情報を特定するための前記指標を、前記各映像フレームから検出する指標検出部と、
     検出された前記指標を識別する指標識別部と、
     検出された前記指標に関連するAR表示を行うための関連情報を取得する関連情報取得部と、
     前記複数の映像フレームの前記自然特徴量の間の対応付けを行う特徴グループ化対応付け部と、
     前記映像フレームにおける未知の指標の座標および前記自然特徴量の座標の情報を前記サーバへ送信し、前記サーバの世界座標系変換部で、前記位置・姿勢が既知の前記指標を基準にして、世界座標系に変換し前記世界座標系データベースに蓄積する機能と、
     特徴量データベースと、前記カメラと前記指標との相対的な位置および姿勢を推定する位置・姿勢推定部と、
     前記カメラの動きに前記指標の関連情報を追随させるためカメラ動き補完部と、
     前記世界座標系変換部の処理結果を受けて、前記カメラで撮影された映像と前記指標に関連する関連情報とを重ね合わせ表示するための処理を行う重ね合せ処理部と、
     表示部とを備え、
     前記カメラで撮影された映像と前記指標に関連する関連情報とを重ね合わせて前記表示部に表示する
    ことを特徴とする端末。
PCT/JP2011/052868 2010-03-24 2011-02-10 世界座標系データベースを利用したサーバ及び端末 WO2011118282A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-067977 2010-03-24
JP2010067977A JP2013141049A (ja) 2010-03-24 2010-03-24 世界座標系データベースを利用したサーバ及び端末

Publications (1)

Publication Number Publication Date
WO2011118282A1 true WO2011118282A1 (ja) 2011-09-29

Family

ID=44672855

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/052868 WO2011118282A1 (ja) 2010-03-24 2011-02-10 世界座標系データベースを利用したサーバ及び端末

Country Status (2)

Country Link
JP (1) JP2013141049A (ja)
WO (1) WO2011118282A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015060241A (ja) * 2013-09-17 2015-03-30 ウエストユニティス株式会社 表示システム
WO2016163563A1 (ja) * 2015-04-09 2016-10-13 日本電気株式会社 地図生成装置、地図生成方法及びプログラム記録媒体
CN111199584A (zh) * 2019-12-31 2020-05-26 武汉市城建工程有限公司 目标物定位虚实融合方法及装置
CN111275823A (zh) * 2018-12-05 2020-06-12 杭州海康威视系统技术有限公司 一种目标关联数据展示方法、装置及系统
WO2021140631A1 (ja) * 2020-01-09 2021-07-15 マクセル株式会社 空間認識システム、空間認識方法、および情報端末
WO2021149254A1 (ja) * 2020-01-24 2021-07-29 株式会社ソニー・インタラクティブエンタテインメント 環境地図管理装置、環境地図管理方法及びプログラム

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6255706B2 (ja) 2013-04-22 2018-01-10 富士通株式会社 表示制御装置、表示制御方法、表示制御プログラムおよび情報提供システム
JP6244954B2 (ja) 2014-02-06 2017-12-13 富士通株式会社 端末装置、情報処理装置、表示制御方法、及び表示制御プログラム
JP6237326B2 (ja) 2014-02-25 2017-11-29 富士通株式会社 姿勢推定装置、姿勢推定方法及び姿勢推定用コンピュータプログラム
JP6372149B2 (ja) * 2014-04-28 2018-08-15 富士通株式会社 表示制御装置、表示制御方法および表示制御プログラム
JP6305856B2 (ja) * 2014-07-11 2018-04-04 Kddi株式会社 画像処理装置、画像処理方法、およびプログラム
JP6543924B2 (ja) * 2014-12-17 2019-07-17 富士通株式会社 情報処理方法、情報処理プログラム、及び情報処理装置
JP6440539B2 (ja) * 2015-03-13 2018-12-19 三菱電機株式会社 設備情報表示システム、モバイル端末、サーバおよび設備情報表示方法
JP6723798B2 (ja) * 2015-05-20 2020-07-15 キヤノン株式会社 情報処理装置、方法、プログラム
WO2016208404A1 (ja) * 2015-06-23 2016-12-29 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2017054185A (ja) * 2015-09-07 2017-03-16 株式会社東芝 情報処理装置、情報処理方法及び情報処理プログラム
DE102015115394A1 (de) * 2015-09-11 2017-03-16 3Dqr Gmbh Verfahren und Vorrichtung zum Überlagern eines Abbilds einer realen Szenerie mit einem virtuellen Bild und mobiles Gerät
JP6575325B2 (ja) * 2015-11-27 2019-09-18 富士通株式会社 カメラ位置姿勢推定装置、カメラ位置姿勢推定方法およびカメラ位置姿勢推定プログラム
EP3479160A4 (en) * 2016-06-30 2020-03-25 Magic Leap, Inc. ESTIMATE OF THE POSE IN A 3D SPACE
JP2018036901A (ja) 2016-08-31 2018-03-08 富士通株式会社 画像処理装置、画像処理方法および画像処理プログラム
DE102016121281A1 (de) * 2016-11-08 2018-05-09 3Dqr Gmbh Verfahren und Vorrichtung zum Überlagern eines Abbilds einer realen Szenerie mit virtuellen Bild- und Audiodaten und ein mobiles Gerät
GB2572786B (en) * 2018-04-10 2022-03-09 Advanced Risc Mach Ltd Image processing for augmented reality
US11227435B2 (en) 2018-08-13 2022-01-18 Magic Leap, Inc. Cross reality system
US10957112B2 (en) * 2018-08-13 2021-03-23 Magic Leap, Inc. Cross reality system
CN114600064A (zh) 2019-10-15 2022-06-07 奇跃公司 具有定位服务的交叉现实系统
US11562525B2 (en) 2020-02-13 2023-01-24 Magic Leap, Inc. Cross reality system with map processing using multi-resolution frame descriptors
JP7412260B2 (ja) * 2020-04-16 2024-01-12 共同印刷株式会社 測位システム、測位装置、測位方法および測位プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048484A (ja) * 2004-08-06 2006-02-16 Advanced Telecommunication Research Institute International デザイン支援装置
JP2008033819A (ja) * 2006-07-31 2008-02-14 Omron Corp 物体認識装置、監視システム、物体認識方法、物体認識プログラム、および該プログラムを記録した記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048484A (ja) * 2004-08-06 2006-02-16 Advanced Telecommunication Research Institute International デザイン支援装置
JP2008033819A (ja) * 2006-07-31 2008-02-14 Omron Corp 物体認識装置、監視システム、物体認識方法、物体認識プログラム、および該プログラムを記録した記録媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MASAYUKI KANBARA ET AL.: "Registration for Stereo Vision-based Augmented Reality Based on Extendible Tracking of Markers and Natural Features", IEICE TECHNICAL REPORT, vol. 101, no. 652, 14 February 2002 (2002-02-14), pages 47 - 53 *
RYO MASUDA ET AL.: "On Direction Position Oriented M-CublTS Vehicle WYSIWYAS Navigation", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J91-A, no. 1, 1 January 2008 (2008-01-01), pages 11 - 20 *
SHUHEI HAMADA ET AL.: "Pose Estimation of a Mobile Camera by using Environmental Cameras for MR", IPSJ SIG NOTES, vol. 2008, no. 115, 20 November 2008 (2008-11-20), pages 109 - 116 *
TAKAO FUKUDA: "Close Up Net to Genjitsu no Yugo ga Hajimatta AR ga Tsukuru Joho System no Mirai", NIKKEI COMPUTER, 25 November 2009 (2009-11-25), pages 78 - 83 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015060241A (ja) * 2013-09-17 2015-03-30 ウエストユニティス株式会社 表示システム
WO2016163563A1 (ja) * 2015-04-09 2016-10-13 日本電気株式会社 地図生成装置、地図生成方法及びプログラム記録媒体
JPWO2016163563A1 (ja) * 2015-04-09 2018-02-22 日本電気株式会社 地図生成装置、地図生成方法、およびプログラム
US10415966B2 (en) 2015-04-09 2019-09-17 Nec Corporation Map generating device, map generating method, and program recording medium
CN111275823A (zh) * 2018-12-05 2020-06-12 杭州海康威视系统技术有限公司 一种目标关联数据展示方法、装置及系统
CN111275823B (zh) * 2018-12-05 2024-05-03 杭州海康威视系统技术有限公司 一种目标关联数据展示方法、装置及系统
CN111199584A (zh) * 2019-12-31 2020-05-26 武汉市城建工程有限公司 目标物定位虚实融合方法及装置
CN111199584B (zh) * 2019-12-31 2023-10-20 武汉市城建工程有限公司 目标物定位虚实融合方法及装置
WO2021140631A1 (ja) * 2020-01-09 2021-07-15 マクセル株式会社 空間認識システム、空間認識方法、および情報端末
JPWO2021140631A1 (ja) * 2020-01-09 2021-07-15
WO2021149254A1 (ja) * 2020-01-24 2021-07-29 株式会社ソニー・インタラクティブエンタテインメント 環境地図管理装置、環境地図管理方法及びプログラム

Also Published As

Publication number Publication date
JP2013141049A (ja) 2013-07-18

Similar Documents

Publication Publication Date Title
WO2011118282A1 (ja) 世界座標系データベースを利用したサーバ及び端末
CN108028871B (zh) 移动设备上的无标记的多用户多对象增强现实
US11080885B2 (en) Digitally encoded marker-based augmented reality (AR)
JP5582548B2 (ja) 実環境視像における仮想情報の表示方法
US10134196B2 (en) Mobile augmented reality system
JP5255595B2 (ja) 端末位置特定システム、及び端末位置特定方法
US9699375B2 (en) Method and apparatus for determining camera location information and/or camera pose information according to a global coordinate system
TW201715476A (zh) 運用擴增實境技術之導航系統
CN108958469B (zh) 一种基于增强现实的在虚拟世界增加超链接的方法
JP5843288B2 (ja) 情報提示システム
JP6420605B2 (ja) 画像処理装置
CN107430498A (zh) 扩展照片的视场
JPWO2021076757A5 (ja)
JP2003263104A (ja) 撮像情報認識システム
KR20180133052A (ko) 360도 이미지 및 비디오 기반의 증강현실 콘텐츠 저작 방법
JP6304815B2 (ja) 画像処理装置ならびにその画像特徴検出方法、プログラムおよび装置
JP5709261B2 (ja) 情報端末、情報提供システム及び情報提供方法
WO2006043319A1 (ja) 端末及びサーバ
JP2013238987A (ja) 情報表示装置、情報入力装置、情報表示プログラム及び情報入力プログラム
JP2018032991A (ja) 画像表示装置、画像表示方法及び画像表示用コンピュータプログラム
JP2011022662A (ja) 携帯電話端末及び情報処理システム
JP2010158056A (ja) リンク情報表示装置、その表示方法およびリンク情報処理システム
JP6242009B2 (ja) 広域画像に撮影領域枠を重畳表示する映像転送システム、端末、プログラム及び方法
JP2020177490A (ja) Ar空間画像投影システム、ar空間画像投影方法及びユーザ端末
KR20190048738A (ko) 증강현실용 컨텐츠 제공 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11759090

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11759090

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP