WO2013089146A1 - 情報処理システム、情報処理方法、通信端末およびその制御方法と制御プログラム - Google Patents

情報処理システム、情報処理方法、通信端末およびその制御方法と制御プログラム Download PDF

Info

Publication number
WO2013089146A1
WO2013089146A1 PCT/JP2012/082230 JP2012082230W WO2013089146A1 WO 2013089146 A1 WO2013089146 A1 WO 2013089146A1 JP 2012082230 W JP2012082230 W JP 2012082230W WO 2013089146 A1 WO2013089146 A1 WO 2013089146A1
Authority
WO
WIPO (PCT)
Prior art keywords
local feature
local
feature
information processing
advertisement information
Prior art date
Application number
PCT/JP2012/082230
Other languages
English (en)
French (fr)
Inventor
野村 俊之
山田 昭雄
岩元 浩太
亮太 間瀬
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US14/365,955 priority Critical patent/US10115127B2/en
Priority to JP2013549287A priority patent/JP6168355B2/ja
Publication of WO2013089146A1 publication Critical patent/WO2013089146A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0252Targeted advertisements based on events or environment, e.g. weather or festivals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content

Definitions

  • the present invention relates to a technique for providing advertisement information corresponding to an object to be imaged.
  • Patent Document 1 discloses a technique for searching and notifying the location of a store handling a product from the feature amount of a photographed product image.
  • An object of the present invention is to provide a technique for solving the above-described problems.
  • a system provides: M first local feature amounts each consisting of a feature vector from one dimension to i dimension generated for each of m local regions including each of m feature points in the image of the object, First local feature storage means for storing in association with the object; N feature points are extracted from the video, and n second local feature amounts each consisting of a feature vector from 1 dimension to j dimension are obtained for n local regions including each of the n feature points.
  • Second local feature generation means for generating; A smaller dimension number is selected from among the dimension number i of the feature vector of the first local feature quantity and the dimension number j of the feature vector of the second local feature quantity, and the feature vector includes up to the selected dimension number.
  • Recognition means for recognizing that the object exists; Advertisement information providing means for providing advertisement information related to the object recognized by the recognition means; It is characterized by providing.
  • the method according to the present invention comprises: N feature points are extracted from the video, and n second local feature amounts each consisting of a feature vector from 1 dimension to j dimension are obtained for n local regions including each of the n feature points.
  • Each of the m local regions including each of the m feature points in the image of the object is made up of feature vectors from 1D to iD that are generated in advance and stored in the first local feature storage unit.
  • a reading step of reading m first local feature values from the first local feature value storage means A smaller dimension number is selected from among the dimension number i of the feature vector of the first local feature quantity and the dimension number j of the feature vector of the second local feature quantity, and the feature vector includes up to the selected dimension number.
  • An advertisement information providing step of providing advertisement information related to the object recognized in the recognition step It is characterized by including.
  • a communication terminal provides: Imaging means for capturing an image of the object; M feature points are extracted from the image picked up by the image pickup means, and second local feature values are generated for m local regions including the m feature points.
  • a quantity generating means An information processing apparatus that recognizes the m second local feature values generated by the second local feature value generation unit and that recognizes an object included in the image captured by the imaging unit based on local feature amount verification.
  • Second local feature amount transmitting means for transmitting to Advertisement information providing means for receiving and providing advertisement information related to the object included in the image captured by the imaging means from the information processing apparatus; It is provided with.
  • the method according to the present invention comprises: An imaging step of capturing an image of the object; A second local feature generation step of extracting m feature points from the image and generating m second local feature amounts for m local regions including each of the m feature points; A second local feature amount transmitting step of transmitting the m second local feature amounts to an information processing apparatus that recognizes an object included in the image based on collation of local feature amounts; Advertisement information providing step of receiving and providing advertisement information related to the object included in the image from the information processing device; It is provided with.
  • a program provides: An imaging step of capturing an image of the object; A second local feature generation step of extracting m feature points from the image and generating m second local feature amounts for m local regions including each of the m feature points; A second local feature amount transmitting step of transmitting the m second local feature amounts to an information processing apparatus that recognizes an object included in the image based on collation of local feature amounts; Advertisement information providing step of receiving and providing advertisement information related to the object included in the image from the information processing device; Is executed by a computer.
  • the present invention it is possible to provide advertisement information relating to an object in real time while the object is being photographed.
  • the information processing system 100 is a system for recognizing an object being imaged in real time and providing advertisement information.
  • the information processing system 100 includes a first local feature quantity storage unit 110, a second local feature quantity generation unit 130, a recognition unit 140, and an advertisement information providing unit 150.
  • the first local feature amount storage unit 110 includes m 1-dimensional to i-dimensional feature vectors generated for each of the m local regions including each of the m feature points in the image of the object.
  • the first local feature values are stored in association with the object.
  • the second local feature generation unit 130 extracts n feature points from the newly acquired video 101, and each of n local regions including each of the n feature points from the first dimension to the jth dimension. N second local feature amounts of the feature vectors are generated.
  • the recognition unit 140 selects a smaller number of dimensions from the number of dimensions i of the feature vector of the first local feature quantity and the number of dimensions j of the feature vector of the second local feature quantity. The recognizing unit 140 then adds a predetermined ratio of the m second local feature amounts including the feature vectors up to the selected number of dimensions to the n second local feature amounts including the feature vectors up to the selected number of dimensions. When it is determined that the above corresponds, it is recognized that an object exists in the video.
  • the advertisement information providing unit 150 provides advertisement information related to the object recognized by the recognition unit 140.
  • FIG. 2 is a diagram for explaining the overall configuration of the information processing system 200 according to the present embodiment.
  • the information processing system 200 includes an advertisement distribution server 210 including an advertisement information database (advertisement distribution DB) 211 and communication terminals 221 to 221 including local feature amount generation units 221a to 225a connected via a network 240 via a communication line. 225 and an advertisement provider terminal 230.
  • the communication terminals 221 to 225 use the local feature value generation units 221a to 225a, for example, to generate local feature values from the video being shot and send them to the advertisement distribution server 210.
  • the advertisement distribution server 210 compares the sent local feature quantity with the local feature quantity stored in advance in the advertisement information database 211, and performs matching. If the advertisement distribution server 210 succeeds in the collation, the advertisement distribution server 210 determines that the object in the video is the object of advertisement distribution, reads out the correspondingly stored advertisement information from the advertisement information database 211, and communicates with the communication terminal. Send to 221 to 225. The communication terminals 221 to 225 display the received advertisement information on the screen.
  • the advertisement provider terminal 230 provides product images and advertisement information to the advertisement distribution server 210 via the network 240 or directly.
  • the advertisement distribution server 210 analyzes the provided product image, generates a local feature, and stores it in the advertisement information database 211 in association with the advertisement information.
  • FIG. 3A is a block diagram showing an internal functional configuration of the communication terminals 221 to 225.
  • the communication terminals 221 to 225 receive an imaging unit 310 such as a camera, a video playback unit 311 that reads and plays back video data stored therein, and a so-called one-segment or terrestrial digital wave video via an antenna (not shown).
  • an imaging unit 310 such as a camera
  • a video playback unit 311 that reads and plays back video data stored therein
  • a so-called one-segment or terrestrial digital wave video via an antenna (not shown).
  • the video acquired by the imaging unit 310, the video reproduction unit 311, and the video reception unit 312 is developed on the image development unit 313 and then displayed on the display unit 325.
  • the image development unit 313 outputs the developed image to the display unit 325 and simultaneously outputs it to the local feature value generation unit 320.
  • the local feature quantity generation unit 320 extracts n feature points from the developed image, and includes n 1-dimensional to j-dimensional feature vectors for n local regions each including the n feature points. n local feature values are generated and sent to the encoding unit 321.
  • the encoding unit 321 encodes the local feature amount and passes it to the communication control unit 360.
  • the communication control unit 360 sends the encoded local feature amount to the advertisement distribution server 210.
  • the communication control unit 360 also receives advertisement information from the advertisement distribution server 210 and passes it to the advertisement image generation unit 324.
  • the advertisement image generation unit 324 generates an advertisement image from the received advertisement information and passes it to the display unit 325.
  • the display unit 325 displays the advertisement image generated by the advertisement image generation unit 324 by superimposing on or adding to the image being captured or the image being reproduced. That is, the advertisement image generation unit 324 functions as an advertisement information adding unit.
  • FIG. 3B is a block diagram showing an internal functional configuration of the advertisement distribution server 210.
  • the advertisement distribution server 210 includes a communication control unit 330, a local feature amount generation unit 332, a matching unit 333, an advertisement information acquisition unit 334, and a local feature amount decoding unit 335.
  • the communication control unit 330 receives an image of the product, its detailed information, and advertisement information to be displayed in association with the product from the advertisement provider terminal 230.
  • the received product image is sent to the local feature value generation unit 332, where local feature value generation processing is performed.
  • the generated local feature amount is associated with the product information and the advertisement information and is stored in the advertisement information database 211.
  • the communication control section 330 passes the encoded local feature quantity to the local feature quantity decoding section 335.
  • the local feature quantity decoding unit 335 decodes the local feature quantity and sends it to the matching unit 333.
  • the matching unit 333 compares the local feature received via the network with the local feature stored in advance in the advertisement information database 211, and performs matching.
  • the local feature amount stored here is composed of feature vectors from 1 to i, respectively, generated for each of m local regions including each of m feature points in the image of the object. There are m local features.
  • the collation unit 333 selects a smaller number of dimensions from the dimension numbers i and j of the feature vectors of the two local feature quantities acquired from the local feature quantity decoding unit 335 and the advertisement information database 211. Then, the collation unit 333 is the local feature amount acquired from the local feature amount decoding unit 335, the n local feature amounts including the feature vectors up to the selected number of dimensions, and the selection acquired from the advertisement information database 211. The m local feature amounts composed of feature vectors up to the number of dimensions are compared. When it is determined that a predetermined ratio or more of these local feature amounts corresponds, the collation unit 333 recognizes that an advertisement target exists in the video, and passes the recognition result to the advertisement information acquisition unit 334.
  • the advertisement information acquisition unit 334 reads the advertisement information corresponding to the advertisement object from the advertisement information database 211 based on the collation result that the advertisement object exists in the video, and performs communication via the communication control unit 330. Transmit to terminals 221 to 225.
  • FIG. 4A is a block diagram showing configurations of local feature value generation section 320 and encoding section 321.
  • the local feature quantity generation unit 320 includes a feature point detection unit 401, a local region acquisition unit 402, a sub-region division unit 403, a sub-region feature vector generation unit 404, and a dimension selection unit 405.
  • the feature point detection unit 401 detects a number of characteristic points (feature points) from the image data, and outputs the coordinate position, scale (size), and angle of each feature point.
  • the local region acquisition unit 402 acquires a local region where feature amount extraction is performed from the coordinate value, scale, and angle of each detected feature point.
  • the sub area dividing unit 403 divides the local area into sub areas.
  • the sub-region dividing unit 403 can divide the local region into 16 blocks (4 ⁇ 4 blocks) or divide the local region into 25 blocks (5 ⁇ 5 blocks).
  • the number of divisions is not limited.
  • a case where the local area is divided into 25 blocks (5 ⁇ 5 blocks) will be described as a representative.
  • the sub-region feature vector generation unit 404 generates a feature vector for each sub-region of the local region.
  • the sub-region feature vector generation unit 404 can generate a multi-dimensional feature vector using, for example, a histogram in the gradient direction as the feature vector of the sub-region.
  • the dimension selection unit 405 selects (for example, thins out) a dimension to be output as a local feature amount based on the positional relationship between the sub-regions so that the correlation between the feature vectors of the adjacent sub-regions becomes low.
  • the dimension selection unit 405 can determine not only the dimension but also the selection priority. That is, for example, the dimension selecting unit 405 can select dimensions with priorities so that the dimensions in the same gradient direction are not selected between adjacent sub-regions. Then, the dimension selection unit 405 outputs a feature vector composed of the selected dimensions as a local feature amount. Note that the dimension selection unit 405 can output the local feature amount in a state where the dimensions are rearranged based on the priority order.
  • the encoding unit 321 includes a coordinate value scanning unit 407 that inputs the coordinates of feature points from the feature point detection unit 401 of the local feature quantity generation unit 320 and scans the coordinate values.
  • the coordinate value scanning unit 407 scans the image according to a specific scanning method, and converts the two-dimensional coordinate values (X coordinate value and Y coordinate value) of the feature points into one-dimensional index values.
  • This index value is a scanning distance from the origin according to scanning. There is no restriction on the scanning direction.
  • the encoding unit 321 includes a sorting unit 408 that sorts the index values of feature points and outputs permutation information after sorting.
  • the sorting unit 408 sorts in ascending order, for example. You may also sort in descending order.
  • the encoding unit 321 includes a difference calculation unit 409 that calculates a difference value between two adjacent index values in the sorted index value and outputs a series of difference values.
  • the encoding unit 321 further includes a difference encoding unit 410 that encodes a sequence of difference values in sequence order.
  • the sequence of the difference value may be encoded with a fixed bit length, for example.
  • the bit length may be specified in advance, but this requires the number of bits necessary to express the maximum possible difference value, so the encoding size is small. Don't be. Therefore, when encoding with a fixed bit length, the differential encoding unit 410 can determine the bit length based on the input sequence of difference values.
  • the difference encoding unit 410 obtains the maximum value of the difference value from the input series of difference values, obtains the number of bits (expression bit number) necessary to express the maximum value, A series of difference values can be encoded with the obtained number of expression bits.
  • the local feature amount encoding unit 406 that encodes the local feature amount of the corresponding feature point in the same permutation as the index value of the sorted feature point. By encoding with the same permutation as the sorted index value, it is possible to associate the coordinate value encoded by the differential encoding unit 410 and the corresponding local feature amount in a one-to-one relationship.
  • the local feature encoding unit 406 may encode a local feature selected from the 150-dimensional local feature for one feature point, for example, one dimension with one byte and a number of dimensions. it can.
  • FIG. 4B is a diagram showing a series of processing of feature point detection / local region acquisition / sub-region division / feature vector generation in the local feature quantity generation unit 320.
  • Such a series of processes is described in US Pat. No. 6,711,293, David G. Lowe, “Distinctive image features from scale-invariant key points” (USA), International Journal of Computer Vision, 60 (2), 2004. Year, p. 91-110.
  • the feature point detection unit 401 first detects a feature point 421 from an image in the video as shown in the upper left of FIG. 4B.
  • a feature point 421 is accompanied by an arrow having a direction and a magnitude of a change in value of luminance, saturation, hue, and the like of surrounding pixels as elements.
  • FIG. 4B demonstrates the example quantized to any of six directions of 60 degree
  • the local area acquisition unit 402 generates a Gaussian window 422a around the feature point 421 and generates a local area 422 that substantially includes the Gaussian window 422a, for example. .
  • the local area acquisition unit 402 generates a square local area 422, but the local area may be circular or have another shape. This local region is acquired for each feature point. If the local area is circular, there is an effect that the robustness is improved with respect to the imaging direction.
  • the sub area dividing unit 403 divides the scale and angle of each pixel included in the local area 422 of the feature point 421 into sub areas 423 as shown in the lower left of FIG. 4B.
  • the method of dividing into sub-regions and the number thereof are not limited to this.
  • the gradient direction is not limited to 6 directions, but may be quantized to an arbitrary quantization number such as 4 directions, 8 directions, and 10 directions.
  • the sub-region feature vector generation unit 404 may add up the magnitudes of the gradients instead of adding up the simple frequencies.
  • the sub-region feature vector generation unit 404 assigns weight values not only to the sub-region to which the pixel belongs, but also to sub-regions adjacent to each other (such as adjacent blocks) according to the distance between the sub-regions.
  • the sub-region feature vector generation unit 404 may add weight values to gradient directions before and after the quantized gradient direction.
  • the feature vector of the sub-region is not limited to the gradient direction histogram, and may be any one having a plurality of dimensions (elements) such as color information. In the present embodiment, it is assumed that a gradient direction histogram is used as the feature vector of the sub-region.
  • the dimension selection unit 405 selects (decimates) a dimension (element) to be output as a local feature amount based on the positional relationship between the sub-regions so that the correlation between feature vectors of adjacent sub-regions becomes low. More specifically, the dimension selection unit 405 selects a dimension so that, for example, at least one gradient direction is different between adjacent sub-regions. In the present embodiment, the dimension selection unit 405 mainly uses adjacent subregions as adjacent subregions. However, the adjacent subregions are not limited to adjacent subregions, for example, from the target subregion. A sub-region within a predetermined distance may be a nearby sub-region.
  • FIG. 4C is a diagram illustrating an example of selecting a dimension from a feature vector 431 of a 150-dimensional gradient histogram generated by dividing a local region into 5 ⁇ 5 block sub-regions and quantizing gradient directions into six directions. It is.
  • the dimension selection unit 405 selects a feature vector 432 of a half 75-dimensional gradient histogram from a feature vector 431 of a 150-dimensional gradient histogram.
  • dimensions can be selected so that dimensions in the same gradient direction are not selected in adjacent left and right and upper and lower sub-region blocks.
  • the dimension selection unit 405 selects the feature vector 433 of the 50-dimensional gradient histogram from the feature vector 432 of the 75-dimensional gradient histogram.
  • the dimension can be selected so that only one direction is the same (the remaining one direction is different) between the sub-region blocks positioned at an angle of 45 degrees.
  • the dimension selection unit 405 selects the feature vector 434 of the 25-dimensional gradient histogram from the feature vector 433 of the 50-dimensional gradient histogram, the gradient direction selected between the sub-region blocks located at an angle of 45 degrees. Dimension can be selected so that does not match.
  • the dimension selection unit 405 selects one gradient direction from each sub-region from the first dimension to the 25th dimension, selects two gradient directions from the 26th dimension to the 50th dimension, and starts from the 51st dimension. Three gradient directions are selected up to 75 dimensions.
  • the gradient directions should not be overlapped between adjacent sub-area blocks and that all gradient directions should be selected uniformly.
  • FIG. 4D is a diagram illustrating an example of the selection order of feature vectors from sub-regions in the local feature value generation unit 320.
  • the dimension selection unit 405 can determine the priority of selection so as to select not only the dimensions but also the dimensions that contribute to the features of the feature points in order. That is, for example, the dimension selecting unit 405 can select dimensions with priorities so that dimensions in the same gradient direction are not selected between adjacent sub-area blocks. Then, the dimension selection unit 405 outputs a feature vector composed of the selected dimensions as a local feature amount. Note that the dimension selection unit 405 can output the local feature amount in a state where the dimensions are rearranged based on the priority order.
  • the dimension selection unit 405 adds dimensions in the order of sub-area blocks as shown in the matrix 441 in FIG. 4D, for example, between 1 to 25 dimensions, 26 dimensions to 50 dimensions, and 51 dimensions to 75 dimensions. It may be selected.
  • the dimension selection unit 405 can select the gradient direction by increasing the priority order of the sub-region blocks close to the center.
  • 4E is a diagram illustrating an example of element numbers of 150-dimensional feature vectors in accordance with the selection order of FIG. 4D.
  • 4, 5 the element number of the feature vector is 6 ⁇ p + q.
  • the matrix 460 in FIG. 4F is a diagram showing that the 150-dimensional order according to the selection order in FIG. 4E is hierarchized in units of 25 dimensions. That is, the matrix 460 in FIG. 4F is a diagram illustrating a configuration example of local feature amounts obtained by selecting the elements illustrated in FIG. 4E according to the priority order illustrated in the matrix 441 in FIG. 4D.
  • the dimension selection unit 405 can output dimension elements in the order shown in FIG. 4F. Specifically, when outputting a 150-dimensional local feature amount, for example, the dimension selection unit 405 can output all 150-dimensional elements in the order shown in FIG. 4F.
  • the dimension selection unit 405 When the dimension selection unit 405 outputs, for example, a 25-dimensional local feature, the first row (76th, 45th, 83rd,..., 120th) element 462 shown in FIG. Can be output in the order shown in (from left to right). For example, when outputting a 50-dimensional local feature value, the dimension selection unit 405 adds the element 463 in the second row shown in FIG. 4F to the first row shown in FIG. 4F in the order shown in FIG. To the right).
  • the local feature amount has a hierarchical structure. That is, for example, in the 25-dimensional local feature value and the 150-dimensional local feature value, the arrangement of the elements 461 to 466 in the first 25-dimensional local feature value is the same.
  • the dimension selection unit 405 selects a dimension hierarchically (progressively), and thereby, according to the application, communication capacity, terminal specifications, etc., the local feature quantity of any number of dimensions, that is, the local size of any size. Feature quantities can be extracted and output.
  • the dimension selection unit 405 can hierarchically select dimensions, rearrange the dimensions based on the priority order, and output them, thereby performing image matching using local feature amounts of different dimensions. . For example, when images are collated using a 75-dimensional local feature value and a 50-dimensional local feature value, the distance between the local feature values can be calculated by using only the first 50 dimensions.
  • the priorities shown in the matrix 441 in FIG. 4D to FIG. 4F are examples, and the order in selecting the dimensions is not limited to this.
  • the order of blocks may be the order shown in the matrix 442 in FIG. 4D or the matrix 443 in FIG. 4D in addition to the example of the matrix 441 in FIG. 4D.
  • the priority order may be set so that dimensions are selected from all the sub-regions.
  • the vicinity of the center of the local region may be important, and the priority order may be determined so that the selection frequency of the sub-region near the center is increased.
  • the information indicating the dimension selection order may be defined in the program, for example, or may be stored in a table or the like (selection order storage unit) referred to when the program is executed.
  • the dimension selection unit 405 may select a dimension by skipping one sub-area block. That is, 6 dimensions are selected in a certain sub-region, and 0 dimensions are selected in other sub-regions close to the sub-region. Even in such a case, it can be said that the dimension is selected for each sub-region so that the correlation between adjacent sub-regions becomes low.
  • the shape of the local region and sub-region is not limited to a square, and can be any shape.
  • the local region acquisition unit 402 may acquire a circular local region.
  • the sub-region dividing unit 403 can divide the circular local region into, for example, nine or seventeen sub-regions into concentric circles having a plurality of local regions.
  • the dimension selection unit 405 can select a dimension in each sub-region.
  • the dimensions of the feature vectors generated while maintaining the information amount of the local feature values are hierarchically selected.
  • the This processing enables real-time object recognition and recognition result display while maintaining recognition accuracy.
  • the configuration and processing of the local feature value generation unit 320 are not limited to this example. Naturally, other processes that enable real-time object recognition and recognition result display while maintaining recognition accuracy can be applied.
  • FIG. 4G is a diagram illustrating a state in which advertisement information is displayed during shooting with a mobile phone or a smartphone as the communication terminal 221. It is assumed that local feature amounts generated in advance from an advertisement target (in this example, an automobile) are stored in the advertisement information database 211. On the other hand, a local feature amount is generated from the video display area 472 in the live view display screen 471 by the above-described processing. Then, it is determined whether or not each of the local feature amounts stored in the advertisement information database 211 is in the local feature amount generated from the video display area 472.
  • the matching unit 333 associates each feature point in the video display area 472 having a local feature amount that matches the local feature amount 473 stored in the advertisement information database 211 as a thin line. Note that the matching unit 333 determines that the feature points match when a predetermined ratio or more of the local feature amounts match. And the collation part 333 will recognize that it is an advertising target object, if the positional relationship between the sets of the associated feature points is a linear relationship. If such recognition is performed, it is possible to recognize even if there is a difference in size or orientation (difference in viewpoint) or inversion.
  • the recognition accuracy can be obtained if there are a predetermined number or more of the corresponding feature points, it is possible to recognize the recognition target object even if part of it is hidden from view.
  • the recognition it is determined that the car being photographed (here, a photograph of a car displayed on a signboard, but may be a real one) is an advertisement target, and corresponding advertisement information 474 is derived, and a live view display screen 471 is obtained. Additional display or superimposed display.
  • FIG. 4H is a diagram showing a verification example for recognizing a building in the video. It is assumed that the local feature quantity 482 of the recognition object (in this example, the five-story pagoda 483) is registered in the advertisement information database 211 in advance. It is assumed that video content such as a movie is played on the communication terminal 221 such as a smart device. At this time, the local feature value generation unit 320 generates a local feature value from the video display area 481 as described above. Then, the matching unit 333 of the advertisement distribution server 210 determines whether or not each of the local feature values 482 stored in the advertisement information database 211 is in the local feature value generated from the video display area 481.
  • the local feature quantity 482 of the recognition object in this example, the five-story pagoda 483
  • video content such as a movie is played on the communication terminal 221 such as a smart device.
  • the local feature value generation unit 320 generates a local feature value from the video display area 481 as described above.
  • each feature point including a local feature amount matching a local feature amount stored in the advertisement information database 211 at a predetermined ratio or more is associated with a thin line. If the positional relationship between the associated feature points is a linear relationship, it is recognized as a recognition target object. In the matching process of the matching unit 333, matching is performed based on the feature point coordinates and the local feature amount.
  • the local feature amount generated from the matching recognition object and the local feature amount generated from the image in the video are Recognition is possible only by the linear relationship of the arrangement order.
  • this embodiment has been described with a two-dimensional image, the same processing can be performed even if three-dimensional feature point coordinates are used.
  • FIG. 5 is a sequence diagram for explaining the flow of processing in the information processing system 200.
  • the communication control unit 330 of the advertisement distribution server 210 receives a product image and advertisement information from the advertisement provider terminal 230 (S501), and the local feature value generation unit 332 generates a local feature value from the product image (S503). ).
  • the advertisement information database 211 stores the local feature amount and product information (S505).
  • step S511 when imaging, video reproduction, or video reception is performed in step S511, the process proceeds to step S512, and the image development unit 313 develops an image for one screen in the image memory.
  • step S513 the local feature value generation unit 320 generates a local feature value from the developed image by the above-described processing.
  • step S515 the local feature amount generated by the encoding unit 321 is encoded.
  • step S517 the communication control unit 330 transmits the local feature amount including the feature point coordinates to the advertisement distribution server 210.
  • the advertisement distribution server 210 determines whether or not a local feature amount matching the received local feature amount is stored in the advertisement information database 211 (S519, S521), and if it is stored, corresponds to the local feature amount.
  • the advertisement information to be acquired is acquired (S523).
  • the communication control unit 3360 transmits the acquired advertisement information to the communication terminals 221 to 225 (S525). At this time, information on the recognized product and the advertisement display position may be sent simultaneously. Such information may be stored in the advertisement information database 211.
  • the communication terminal 221 displays an advertisement at a predetermined position based on the received advertisement information (S527). At this time, sound may be output simultaneously.
  • FIG. 6 is a diagram illustrating a configuration example of the advertisement information database 211.
  • the advertisement information database 211 stores a product ID, a product name, a local feature amount generated from an image of the product, and advertisement information in association with each other. Thereby, it is possible to derive information on the product and advertisement information from the local feature amount.
  • FIG. 7 is a diagram showing a transmission format 701 when the advertisement distribution server 210 distributes advertisement information to the communication terminals 221 to 225.
  • the transmission format of the advertisement information includes a product ID, a product name, a display position, and advertisement information in addition to the transmission header.
  • the advertisement display timing, the display duration, and the like may be transmitted to the communication terminals 221 to 225.
  • FIG. 8 is a diagram showing a hardware configuration of the communication terminals 221 to 225.
  • the CPU 810 is a processor for calculation control, and implements each functional component of the communication terminal by executing a program.
  • the ROM 820 stores fixed data and programs such as initial data and programs.
  • the communication control unit 330 is a communication control unit, and in this embodiment, communicates with other devices via a network. Note that the number of CPUs 810 is not limited to one, and may be a plurality of CPUs or may include a graphics processing unit (GPU) for image processing.
  • GPU graphics processing unit
  • the RAM 840 is a random access memory that the CPU 810 uses as a work area for temporary storage.
  • the RAM 840 has an area for storing data necessary for realizing the present embodiment.
  • the developed image data 841 is data input by the imaging unit 310.
  • the feature point data 842 is data including feature point coordinates, scales, and angles detected from the developed image data 841.
  • the local feature value generation table 843 is a table that stores data related to generation of local feature values.
  • the advertisement information 844 is information derived from a comparison between the local feature amount generated from the input video and the local feature amount stored in the advertisement information database 211.
  • the advertisement display data 845 is data for notifying the user of the advertisement information 844. In addition, when outputting a voice, collation result voice data may be included.
  • the storage 850 stores a database, various parameters, or the following data or programs necessary for realizing the present embodiment.
  • the communication terminal control program 851 is a program that controls the entire communication terminal.
  • the local feature value generation module 852 generates a local feature value from the input video according to FIGS. 4B to 4F.
  • the encoding module 853 is a module that encodes local feature amounts, and functions as the encoding unit 321 when executed by the CPU 810.
  • the advertisement generation module 854 is a module for generating an advertisement image, and functions as the advertisement image generation unit 324 when executed by the CPU 810.
  • the input / output interface 860 relays input / output data with the input / output device.
  • a display unit 325, a touch panel 862, a speaker 864, a microphone 865, and an imaging unit 310 are connected to the input / output interface 860.
  • the input / output device is not limited to the above example.
  • a GPS (Global Positioning System) position generation unit 866 acquires a current position based on a signal from a GPS satellite.
  • FIG. 9 is a diagram showing a local feature value generation table 843 according to the present embodiment.
  • the local feature amount generation table 843 stores a plurality of detected feature points, feature point coordinates, and local region information corresponding to the feature points in association with the input image ID.
  • a selection dimension including a plurality of sub-region IDs, sub-region information, feature vectors corresponding to each sub-region, and priority order is stored in association with each detected feature point, feature point coordinates, and local region information.
  • FIG. 10 is a flowchart for explaining the flow of processing performed in the communication terminals 221 to 225.
  • the local feature value generation unit 320 performs local feature value generation processing in step S1013.
  • the local feature amount is transmitted to the advertisement distribution server 210. If it is determined in step S1021 that data has been received from the outside instead of inputting an image, it is determined in step S1023 whether the data is advertisement information. If the data is advertisement information, an advertisement is sent in step S1025. Will be provided.
  • FIG. 11 is a flowchart for explaining the flow of local feature generation processing performed in step S1013 of FIG.
  • the feature point detection unit 401 first detects feature points.
  • the local region acquisition unit 402 acquires a local region of one feature point.
  • the sub-region dividing unit 403 divides the local region into sub-regions.
  • the sub-region feature vector generation unit 404 generates a sub-region feature vector.
  • the dimension selection unit 405 selects a dimension in step S1109.
  • FIG. 12 is a diagram showing a hardware configuration of the advertisement distribution server 210.
  • the CPU 1210 is a processor for arithmetic control, and implements each functional component of the advertisement distribution server 210 by executing a program.
  • the ROM 1220 stores fixed data and programs such as initial data and programs.
  • the communication control unit 510 is a unit for communicating with other devices via a network. Note that the number of CPUs 1210 is not limited to one, and may be a plurality of CPUs or may include a GPU (GraphicsGraphProcessing Unit) for image processing.
  • GPU GraphicsGraphProcessing Unit
  • the RAM 1240 is a random access memory that the CPU 1210 uses as a work area for temporary storage.
  • the RAM 1240 has an area for storing data necessary for realizing the present embodiment.
  • the storage 1250 is a large-capacity storage medium that stores a database, various parameters, or the following data or programs necessary for realizing the present embodiment.
  • the product image 1241 stored in the RAM 1240 is a product image received from the advertisement provider terminal 230.
  • the local feature amount 1242 is information generated by analyzing the product image 1241.
  • the advertisement information 1243 is information related to the advertisement received from the advertisement provider terminal 230 or information related to the advertisement to be transmitted to the communication terminals 221 to 225.
  • the advertisement information database 211 in the storage 1250 stores advertisement information 1243 and local feature quantities 1242 in association with each other.
  • the storage 1250 stores a local feature generation module 1252 that performs local feature generation processing.
  • the CPU 1210 executes the local feature value generation module 1252, it functions as the local feature value generation unit 332.
  • the storage 1250 stores a collation module 1253 that performs collation processing of local features.
  • the CPU 1210 functions as the collation unit 333 by executing the collation module 1253.
  • the RAM 1240 also temporarily stores the local feature 1244 received from the communication terminals 221 to 225 to be used for the collation processing in the collation module 1253.
  • FIG. 13 is a flowchart for explaining the processing procedure of the advertisement distribution server.
  • step S1311 it is determined whether a product image and advertisement information are received from the advertisement provider terminal 230.
  • the process proceeds to step S1313, and the advertisement information is registered in the advertisement information database.
  • the process proceeds from step S1321 to step S1323 to perform product recognition and advertisement acquisition processing, and in step S1325, the advertisement information Delivery processing is performed.
  • FIG. 14 is a flowchart for explaining the advertisement information registration process (S1313).
  • the feature point detection unit 401 first detects the feature point.
  • the local region acquisition unit 402 acquires a local region of one feature point.
  • the sub-region dividing unit 403 divides the acquired local region into sub-regions.
  • the sub-region feature vector generation unit 404 generates a sub-region feature vector.
  • the dimension selection unit 405 selects a dimension in step S1410.
  • step S1411 it is determined whether the dimension selection process has been completed for all feature points. If not, the process returns to step S1405.
  • step S1413 register the received advertisement information in the advertisement information database 211 in association with the local feature amount. If there is another advertising product image, the process from step S1401 is repeated, and if not, the process ends (S1417).
  • FIG. 15 is a flowchart for explaining in detail the product recognition / advertisement acquisition process (S1323).
  • step S1503 to collate the local feature amount of the advertisement product with the received local feature amount. If they match as a result of the collation (S1505), the process proceeds to step S1507, the advertisement information of the matched advertisement product is acquired, and the process proceeds to step S1509. If not matched in step S1505, the process proceeds to step S1509, and if the process has not been completed for all advertisement products, the process returns to step S1501.
  • the advertisement related to the object included in the image is displayed in real time on the display screen during shooting, the distributed video, or the screen when the stored video is played back. Can do.
  • FIG. 16 is a diagram for explaining a schematic overall configuration of an information processing system 1600 according to the present embodiment.
  • the information processing system 1600 according to the present embodiment is different from the second embodiment in that a link providing server 1610 including a link information database 1611 is provided. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the link information database 1611 stores link information in association with local feature quantities.
  • FIG. 17 is a sequence diagram showing processing of the information processing system 1600 as a whole. Unlike the second embodiment, link information is registered in the link information database 1611 in step S1705. In step S1623, link information is acquired from the link information database 1611 and transmitted to the communication terminals 221 to 225 in step S1625. In step 1627, for example, a link to a product purchase site is accessed on the screen of the communication terminals 221 to 225. Display as possible. Since other processes are the same as those in the second embodiment, the same processes are denoted by the same reference numerals and detailed description thereof is omitted.
  • FIG. 18 is a diagram showing a configuration of the link information database 1611
  • FIG. 19 is a diagram showing a transmission format 1901 of link information.
  • link information is transmitted to the communication terminals 221 to 225 and displayed in an accessible manner, whereby the user can be guided to the product purchase site via the link.
  • FIG. 20 is a diagram for explaining the overall processing of the information processing system according to the present embodiment.
  • the information processing system according to the present embodiment differs from the third embodiment in that it includes a trial data providing server 2010 including a trial data database 2011 instead of the link provision server 1610 including the link information database 1611. . Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • “trial listening data” is provided to the user. However, the “trial listening data” is not limited to audio data, and may include video data.
  • the audition data database 2011 stores audition data in association with local features. Audition data corresponding to the product included in the video displayed on the communication terminals 221 to 225 is read from the audition data database 2011 (S2023), transmitted to the communication terminals 221 to 225 (S2025), and reproduced on the communication terminal (S2027). .
  • the user can be guided to the product purchase screen via the link.
  • FIG. 21 is a diagram for explaining the overall processing of the information processing system according to the present embodiment.
  • the information processing system according to the present embodiment is different from the second embodiment in that a content providing server 2101 is added.
  • the content providing server 2001 searches for content in response to a content request from the communication terminal (S2102), and transmits the found content data to the advertisement distribution server 210 (S2103).
  • the advertisement distribution server 210 analyzes the received content data, derives advertisement information from the local feature amount of the product included therein, and embeds the advertisement information in the content data (S2125).
  • the embedded advertisement content is transmitted to the communication terminal (S2126), and the communication terminal reproduces the content in which the advertisement is embedded (S2127). Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the advertisement evaluation may be performed by counting the frequency of appearance of advertisements. In other words, it is possible to count the number of times when an advertisement or link is displayed by the method of the first to fifth embodiments, perform the evaluation according to the number of times, and charge the advertisement according to the evaluation. .
  • the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device. Furthermore, the present invention can also be applied to a case where a control program that realizes the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention on a computer, a control program installed in the computer, a medium storing the control program, and a WWW (World Wide Web) server that downloads the control program are also included in the scope of the present invention. include.
  • M first local feature amounts each consisting of a feature vector from one dimension to i dimension generated for each of m local regions including each of m feature points in the image of the object,
  • First local feature storage means for storing in association with the object;
  • N feature points are extracted from the video, and
  • n second local feature amounts each consisting of a feature vector from 1 dimension to j dimension are obtained for n local regions including each of the n feature points.
  • Second local feature generation means for generating; A smaller dimension number is selected from among the dimension number i of the feature vector of the first local feature quantity and the dimension number j of the feature vector of the second local feature quantity, and the feature vector includes up to the selected dimension number.
  • Recognition means for recognizing that the object exists; Advertisement information providing means for providing advertisement information related to the object recognized by the recognition means;
  • An information processing system comprising: (Appendix 2) The first local feature storage means further stores advertisement information related to the object in association with the object, The information processing system according to appendix 1, wherein the advertisement information providing means displays advertisement information related to the object recognized by the recognition means with reference to the first local feature quantity storage means.
  • the recognition means When the recognition means recognizes that the object is present in the video, it further comprises advertisement information addition means for adding related advertisement information to the image of the object in the video.
  • the information processing system according to appendix 1 or 2, characterized in that: (Appendix 4)
  • the advertisement information providing means displays, as the advertisement information, a link to a purchase site for a product that is the object in the video in an accessible manner.
  • Information processing system. (Appendix 5)
  • the object is a storage medium that stores content including at least one of music and video, The information according to any one of appendices 1 to 4, wherein the advertisement information providing means displays a part of content including at least one of the music and video as the advertisement information so as to be viewable. Processing system.
  • the information processing system includes a communication terminal and an information processing apparatus connected to the communication terminal via a communication line,
  • the communication terminal includes the second local feature value generation unit, and transmits the n second local feature values to the information processing apparatus, Any one of Supplementary notes 1 to 5, wherein the information processing apparatus includes the first local feature quantity storage unit, the recognition unit, and the advertisement information providing unit, and transmits the advertisement information to the communication terminal.
  • the information processing system according to one.
  • the first local feature amount and the second local feature amount include a histogram of gradient directions in the plurality of sub-regions obtained by dividing a local region including feature points extracted from an image or video into a plurality of sub-regions.
  • the information processing system according to any one of supplementary notes 1 to 6, wherein the information processing system is generated by generating a multidimensional feature vector.
  • the first local feature quantity and the second local feature quantity are generated by selecting a dimension having a larger correlation between adjacent sub-regions from the generated multi-dimensional feature vector.
  • the information processing system according to 7. (Appendix 9) A plurality of dimensions of the feature vector can be selected in order from the dimension that contributes to the feature of the feature point, and from the first dimension according to the improvement in accuracy required for the local feature amount, for each predetermined number of dimensions.
  • the information processing system according to any one of appendices 7 to 8, wherein the information is arranged so as to make a round in the local region.
  • the second local feature quantity generation means corresponds to the level of correlation between the objects, and the object having the higher correlation with respect to other objects has the higher number of dimensions.
  • the information processing system according to appendix 9, wherein two local feature quantities are generated.
  • Supplementary note 9 or 10 wherein the first local feature quantity storage means stores the first local feature quantity having a higher number of dimensions for an object having a higher correlation with another object.
  • Information processing system described in 1. Appendix 12
  • N feature points are extracted from the video, and n second local feature amounts each consisting of a feature vector from 1 dimension to j dimension are obtained for n local regions including each of the n feature points.
  • a second local feature generation step to generate Each of the m local regions including each of the m feature points in the image of the object is made up of feature vectors from 1D to iD that are generated in advance and stored in the first local feature storage unit.
  • a reading step of reading m first local feature values from the first local feature value storage means A smaller dimension number is selected from among the dimension number i of the feature vector of the first local feature quantity and the dimension number j of the feature vector of the second local feature quantity, and the feature vector includes up to the selected dimension number.
  • An advertisement information providing step of providing advertisement information related to the object recognized in the recognition step An information processing method comprising: (Appendix 13) Imaging means for capturing an image of the object; M feature points are extracted from the image picked up by the image pickup means, and second local feature values are generated for m local regions including the m feature points. A quantity generating means; An information processing apparatus that recognizes the m second local feature values generated by the second local feature value generation unit and that recognizes an object included in the image captured by the imaging unit based on local feature amount verification.
  • Second local feature amount transmitting means for transmitting to Advertisement information providing means for receiving and providing advertisement information related to the object included in the image captured by the imaging means from the information processing apparatus;
  • a communication terminal comprising: (Appendix 14) An imaging step of capturing an image of the object; A second local feature generation step of extracting m feature points from the image and generating m second local feature amounts for m local regions including each of the m feature points; A second local feature amount transmitting step of transmitting the m second local feature amounts to an information processing apparatus that recognizes an object included in the image based on collation of local feature amounts; Advertisement information providing step of receiving and providing advertisement information related to the object included in the image from the information processing device;
  • a communication terminal control method comprising: (Appendix 15) An imaging step of capturing an image of the object; A second local feature generation step of extracting m feature points from the image and generating m second local feature amounts for m local regions including each of the m feature points; A second local feature amount transmitting step of transmitting the m

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Multimedia (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 対象物を撮影している間にリアルタイムでその対象物に関する広告情報を提供する。それぞれ1次元からi次元までの特徴ベクトルからなるm個の第1局所特徴量を、対象物と対応付けて記憶し、映像中からn個の特徴点を抽出し、それぞれ1次元からj次元までの特徴ベクトルからなるn個の第2局所特徴量を生成し、次元数iおよび次元数jのうち、より少ない次元数を選択し、選択次元数のn個の第2局所特徴量に、選択次元数のm個の第1局所特徴量の所定割合以上が対応すると判定した場合に、映像中に対象物が存在すると認識し、その対象物に関連する広告情報を提供する。

Description

情報処理システム、情報処理方法、通信端末およびその制御方法と制御プログラム
 本発明は、撮像の対象物に対応する広告情報を提供するための技術に関する。
 上記技術分野において、特許文献1には、撮影された製品の画像の特徴量から、その製品の取り扱い店舗の位置を検索し通知する技術が知られている。
特開2003-122757号公報
 しかしながら、上記文献1に記載の技術では、特徴点の分散値、製品の縦横比、および2値化画像の密度を特徴量として検索に用いていたが、この方法では照合精度が十分ではなく検索にも時間がかかっていた。
 本発明の目的は、上述の課題を解決する技術を提供することにある。
 上記目的を達成するため、本発明に係るシステムは、
 対象物の画像中のm個の特徴点のそれぞれを含むm個の局所領域のそれぞれについて生成された、それぞれ1次元からi次元までの特徴ベクトルからなるm個の第1局所特徴量を、前記対象物と対応付けて記憶する第1局所特徴量記憶手段と、
 映像中からn個の特徴点を抽出し、前記n個の特徴点のそれぞれを含むn個の局所領域について、それぞれ1次元からj次元までの特徴ベクトルからなるn個の第2局所特徴量を生成する第2局所特徴量生成手段と、
 前記第1局所特徴量の特徴ベクトルの次元数iおよび前記第2局所特徴量の特徴ベクトルの次元数jのうち、より少ない次元数を選択し、選択された前記次元数までの特徴ベクトルからなる前記n個の第2局所特徴量に、選択された前記次元数までの特徴ベクトルからなる前記m個の第1局所特徴量の所定割合以上が対応する、と判定した場合に、前記映像中に前記対象物が存在すると認識する認識手段と、
 前記認識手段が認識した前記対象物に関連する広告情報を提供する広告情報提供手段と、
 を備えることを特徴とする。
 上記目的を達成するため、本発明に係る方法は、
 映像中からn個の特徴点を抽出し、前記n個の特徴点のそれぞれを含むn個の局所領域について、それぞれ1次元からj次元までの特徴ベクトルからなるn個の第2局所特徴量を生成する第2局所特徴量生成ステップと、
 対象物の画像中のm個の特徴点のそれぞれを含むm個の局所領域のそれぞれについてあらかじめ生成され第1局所特徴量記憶手段に記憶された、それぞれ1次元からi次元までの特徴ベクトルからなるm個の第1局所特徴量を、前記第1局所特徴量記憶手段から読出す読出ステップと、
 前記第1局所特徴量の特徴ベクトルの次元数iおよび前記第2局所特徴量の特徴ベクトルの次元数jのうち、より少ない次元数を選択し、選択された前記次元数までの特徴ベクトルからなる前記n個の第2局所特徴量に、選択された前記次元数までの特徴ベクトルからなる前記m個の第1局所特徴量の所定割合以上が対応する、と判定した場合に、前記映像中に前記対象物が存在すると認識する認識ステップと、
 前記認識ステップで認識された前記対象物に関連する広告情報を提供する広告情報提供ステップと、
 を含むことを特徴とする。
 上記目的を達成するため、本発明に係る通信端末は、
 対象物の画像を撮像する撮像手段と、
 前記撮像手段が撮像した前記画像中からm個の特徴点を抽出し、前記m個の特徴点のそれぞれを含むm個の局所領域についてm個の第2局所特徴量を生成する第2局所特徴量生成手段と、
 前記第2局所特徴量生成手段が生成した前記m個の第2局所特徴量を、局所特徴量の照合に基づいて前記撮像手段が撮像した前記画像中に含まれる対象物を認識する情報処理装置に送信する第2局所特徴量送信手段と、
 前記撮像手段が撮像した前記画像中に含まれる前記対象物に関連する広告情報を前記情報処理装置から受信して提供する広告情報提供手段と、
 を備えたことを特徴とする。
 上記目的を達成するため、本発明に係る方法は、
 対象物の画像を撮像する撮像ステップと、
 前記画像中からm個の特徴点を抽出し、前記m個の特徴点のそれぞれを含むm個の局所領域についてm個の第2局所特徴量を生成する第2局所特徴量生成ステップと、
 局所特徴量の照合に基づいて前記画像中に含まれる対象物を認識する情報処理装置に、前記m個の第2局所特徴量を送信する第2局所特徴量送信ステップと、
 前記画像中に含まれる前記対象物に関連する広告情報を前記情報処理装置から受信して提供する広告情報提供ステップと、
 を備えたことを特徴とする。
 上記目的を達成するため、本発明に係るプログラムは、
 対象物の画像を撮像する撮像ステップと、
 前記画像中からm個の特徴点を抽出し、前記m個の特徴点のそれぞれを含むm個の局所領域についてm個の第2局所特徴量を生成する第2局所特徴量生成ステップと、
 局所特徴量の照合に基づいて前記画像中に含まれる対象物を認識する情報処理装置に、前記m個の第2局所特徴量を送信する第2局所特徴量送信ステップと、
 前記画像中に含まれる前記対象物に関連する広告情報を前記情報処理装置から受信して提供する広告情報提供ステップと、
 をコンピュータに実行させることを特徴とする。
 本発明によれば、対象物を撮影している間にリアルタイムでその対象物に関する広告情報を提供することができる。
本発明の第1実施形態に係る情報処理システムの構成を示す図である。 本発明の第2実施形態に係る情報処理システムの全体構成を示す図である。 本発明の第2実施形態に係る通信端末の内部機能構成を示す図である。 本発明の第2実施形態に係る広告配信サーバの内部機能構成を示す図である。 本発明の第2実施形態に係る局所特徴量の生成処理について説明するための図である。 本発明の第2実施形態に係る局所特徴量の生成処理について説明するための図である。 本発明の第2実施形態に係る局所特徴量の生成処理について説明するための図である。 本発明の第2実施形態に係る局所特徴量の生成処理について説明するための図である。 本発明の第2実施形態に係る局所特徴量の生成処理について説明するための図である。 本発明の第2実施形態に係る局所特徴量の生成処理について説明するための図である。 本発明の第2実施形態に係る照合処理について説明するための図である。 本発明の第2実施形態に係る照合処理について説明するための図である。 本発明の第2実施形態に係る情報処理システムの全体処理を示すシーケンス図である。 本発明の第2実施形態に係る広告情報データベースの構成を示す図である。 本発明の第2実施形態に係る広告情報の送信フォーマットを示す図である。 本発明の第2実施形態に係る通信端末のハードウェア構成を示す図である。 本発明の第2実施形態に係る通信端末の処理テーブルを示す図である。 本発明の第2実施形態に係る通信端末の処理の流れを示すフローチャートである。 本発明の第2実施形態に係る通信端末の処理の流れを示すフローチャートである。 本発明の第2実施形態に係る広告配信サーバのハードウェア構成を示す図である。 本発明の第2実施形態に係る広告配信サーバの処理の流れを示すフローチャートである。 本発明の第2実施形態に係る広告配信サーバの処理の流れを示すフローチャートである。 本発明の第2実施形態に係る広告配信サーバの処理の流れを示すフローチャートである。 本発明の第3実施形態に係る情報処理システムの全体構成を示す図である。 本発明の第3実施形態に係る情報処理システムの全体処理の流れを示すシーケンス図である。 本発明の第3実施形態に係るリンク情報データベースの構成を示す図である。 本発明の第3実施形態に係るリンク情報送信フォーマットの構成を示す図である。 本発明の第4実施形態に係る情報処理システムの処理の流れを示すシーケンス図である。 本発明の第5実施形態に係る情報処理システムの処理の流れを示すシーケンス図である。 本発明の第6実施形態に係る情報処理システムについて説明するための図である。
 以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
 [第1実施形態]
 本発明の第1実施形態としての情報処理システム100について、図1を用いて説明する。情報処理システム100は、撮像中の対象物をリアルタイムに認識し、広告情報を提供するためのシステムである。
 図1に示すように、情報処理システム100は、第1局所特徴量記憶部110と、第2局所特徴量生成部130と、認識部140と、広告情報提供部150と、を含む。
 第1局所特徴量記憶部110は、対象物の画像中のm個の特徴点のそれぞれを含むm個の局所領域のそれぞれについて生成された、それぞれ1次元からi次元までの特徴ベクトルからなるm個の第1局所特徴量を、対象物と対応付けて記憶する。
 第2局所特徴量生成部130は、新たに取得した映像101内からn個の特徴点を抽出し、n個の特徴点のそれぞれを含むn個の局所領域について、それぞれ1次元からj次元までの特徴ベクトルからなるn個の第2局所特徴量を生成する。
 認識部140は、第1局所特徴量の特徴ベクトルの次元数iおよび第2局所特徴量の特徴ベクトルの次元数jのうち、より少ない次元数を選択する。そして、認識部140は、選択された次元数までの特徴ベクトルからなるn個の第2局所特徴量に、選択された次元数までの特徴ベクトルからなるm個の第1局所特徴量の所定割合以上が対応する、と判定した場合に、映像中に対象物が存在すると認識する。
 広告情報提供部150は、認識部140が認識した対象物に関連する広告情報を提供する。
 本実施形態によれば、認識精度を維持しながら、映像中の認識対象物に対してリアルタイムに広告情報を提供することができる。
 [第2実施形態]
 次に本発明の第2実施形態に係る情報処理システム200について、図2乃至図15を用いて説明する。図2は、本実施形態に係る情報処理システム200の全体構成を説明するための図である。
 《全体構成》
 情報処理システム200は、ネットワーク240を介して通信回線で接続された、広告情報データベース(広告配信DB)211を含む広告配信サーバ210と、局所特徴量生成部221a~225aを備えた通信端末221~225と、広告提供者端末230とを含む。通信端末221~225は、局所特徴量生成部221a~225aを用いて、例えば撮影中の映像から局所特徴量を生成し、広告配信サーバ210に送る。
 広告配信サーバ210は、送られてきた局所特徴量と、あらかじめ広告情報データベース211に記憶している局所特徴量とを比較し、照合を行なう。広告配信サーバ210は、その照合に成功すれば、映像中の対象物が、広告配信の対象であると判断し、対応して記憶されていた広告情報を広告情報データベース211から読出して、通信端末221~225に送信する。通信端末221~225では、受信した広告情報を画面に表示する。
 また、広告提供者端末230は、ネットワーク240を介して、あるいは、直接、広告配信サーバ210に対して、商品の画像と広告情報とを提供する。広告配信サーバ210は、提供された商品の画像を解析して、局所特徴量を生成し、広告情報と対応付けて、広告情報データベース211に記憶する。
 図3Aは、通信端末221~225の内部機能構成を示すブロック図である。通信端末221~225は、カメラなどの撮像部310と、内部に記憶された映像データを読出して再生する映像再生部311と、不図示のアンテナを介していわゆるワンセグや地上デジタル波の映像を受信する映像受信部312とを有する。これらの撮像部310、映像再生部311、映像受信部312に取得された映像は、画像展開部313において展開された後、表示部325に表示される。この時、画像展開部313は、展開された画像を、表示部325に出力すると同時に、局所特徴量生成部320に出力する。局所特徴量生成部320は、展開された画像からn個の特徴点を抽出し、n個の特徴点のそれぞれを含むn個の局所領域について、それぞれ1次元からj次元までの特徴ベクトルからなるn個の局所特徴量を生成し、符号化部321に送る。符号化部321は、局所特徴量を符号化して、通信制御部360に渡す。通信制御部360は、符号化された局所特徴量を、広告配信サーバ210に送る。通信制御部360は、また、広告配信サーバ210から広告情報を受信し、広告画像生成部324に渡す。広告画像生成部324は、受信した広告情報から広告画像を生成して、表示部325に渡す。表示部325は、広告画像生成部324が生成した広告画像を、撮像中の映像や再生中の映像に重畳してあるいはそれらの映像に付加して表示する。つまり広告画像生成部324は、広告情報付加手段として機能する。
 図3Bは、広告配信サーバ210の内部機能構成を示すブロック図である。広告配信サーバ210は、広告情報データベース211の他、通信制御部330、局所特徴量生成部332、照合部333、広告情報取得部334、および局所特徴量復号部335を含む。通信制御部330は、広告提供者端末230から商品の画像およびその詳細情報およびその商品と関連して表示すべき広告情報を受信する。受信した商品画像は、局所特徴量生成部332に送られ、局所特徴量の生成処理が行なわれる。生成された局所特徴量は、商品情報および広告情報に紐付けられて、広告情報データベース211に格納される。
 一方、通信制御部330は、ネットワークを介して通信端末221~225から、符号化された局所特徴量を受信すると、局所特徴量復号部335に渡す。局所特徴量復号部335は、局所特徴量を復号し、照合部333に送る。照合部333は、ネットワークを介して受信した局所特徴量と、あらかじめ広告情報データベース211に記憶された局所特徴量とを比較し、照合を行なう。ここに記憶されている局所特徴量は、対象物の画像中のm個の特徴点のそれぞれを含むm個の局所領域のそれぞれについて生成された、それぞれ1次元からi次元までの特徴ベクトルからなるm個の局所特徴量である。
 照合部333は、局所特徴量復号部335および広告情報データベース211から取得した2つの局所特徴量の特徴ベクトルの次元数i、jのうち、より少ない次元数を選択する。そして、照合部333は、局所特徴量復号部335から取得した局所特徴量であって、選択された次元数までの特徴ベクトルからなるn個の局所特徴量と、広告情報データベース211から取得した選択された次元数までの特徴ベクトルからなるm個の局所特徴量とを比較する。照合部333は、これらの局所特徴量の所定割合以上が対応すると判定した場合に、映像中に広告対象物が存在すると認識し、その認識結果を広告情報取得部334に渡す。広告情報取得部334は、映像中に広告対象物が存在するとの照合結果に基づいて、その広告対象物に対応する広告情報を広告情報データベース211から読み出して、通信制御部330を介して、通信端末221~225に送信する。
 《局所特徴量生成部と符号化部の構成》
 図4Aは、局所特徴量生成部320および符号化部321の構成を示すブロック図である。
 局所特徴量生成部320は、特徴点検出部401、局所領域取得部402、サブ領域分割部403、サブ領域特徴ベクトル生成部404、および次元選定部405を含む。
 特徴点検出部401は、画像データから特徴的な点(特徴点)を多数検出し、各特徴点の座標位置、スケール(大きさ)、および角度を出力する。
 局所領域取得部402は、検出された各特徴点の座標値、スケール、および角度から、特徴量抽出を行う局所領域を取得する。
 サブ領域分割部403は、局所領域をサブ領域に分割する。例えば、サブ領域分割部403は、局所領域を16ブロック(4×4ブロック)に分割することも、局所領域を25ブロック(5×5ブロック)に分割することもできる。なお、分割数は限定されない。以下、局所領域を25ブロック(5×5ブロック)に分割する場合を代表して説明する。
 サブ領域特徴ベクトル生成部404は、局所領域のサブ領域ごとに特徴ベクトルを生成する。サブ領域特徴ベクトル生成部404は、サブ領域の特徴ベクトルとして、例えば、勾配方向のヒストグラムを用いて複数次元の特徴ベクトルを生成することができる。
 次元選定部405は、サブ領域の位置関係に基づいて、近接するサブ領域の特徴ベクトル間の相関が低くなるように、局所特徴量として出力する次元を選定する(例えば、間引きする)。また、次元選定部405は、単に次元を選定するだけではなく、選定の優先順位を決定することができる。すなわち、次元選定部405は、例えば、隣接するサブ領域間では同一の勾配方向の次元が選定されないように、優先順位をつけて次元を選定することができる。そして、次元選定部405は、選定した次元から構成される特徴ベクトルを、局所特徴量として出力する。なお、次元選定部405は、優先順位に基づいて次元を並び替えた状態で、局所特徴量を出力することができる。
 符号化部321は、局所特徴量生成部320の特徴点検出部401から特徴点の座標を入力して、座標値を走査する座標値走査部407を有する。座標値走査部407は、画像をある特定の走査方法に従って走査し、特徴点の2次元座標値(X座標値とY座標値)を1次元のインデックス値に変換する。このインデックス値は、走査に従った原点からの走査距離である。なお、走査方向については、制限はない。
 また、符号化部321は、特徴点のインデックス値をソートし、ソート後の順列の情報を出力するソート部408を有する。ここでソート部408は、例えば昇順にソートする。また降順にソートしてもよい。
 また、符号化部321は、ソートされたインデックス値における、隣接する2つのインデックス値の差分値を算出し、差分値の系列を出力する差分算出部409を有する。
 符号化部321は、さらに、差分値の系列を系列順に符号化する差分符号化部410を有する。差分値の系列の符号化は、例えば固定ビット長の符号化でもよい。固定ビット長で符号化する場合、そのビット長はあらかじめ規定されていてもよいが、これでは考えられうる差分値の最大値を表現するのに必要なビット数を要するため、符号化サイズは小さくならない。そこで、差分符号化部410は、固定ビット長で符号化する場合、入力された差分値の系列に基づいてビット長を決定することができる。具体的には、例えば、差分符号化部410は、入力された差分値の系列から差分値の最大値を求め、その最大値を表現するのに必要なビット数(表現ビット数)を求め、求められた表現ビット数で差分値の系列を符号化することができる。
 一方、ソートされた特徴点のインデックス値と同じ順列で、対応する特徴点の局所特徴量を符号化する局所特徴量符号化部406を有する。ソートされたインデックス値と同じ順列で符号化することで、差分符号化部410で符号化された座標値と、それに対応する局所特徴量とを1対1で対応付けることが可能となる。局所特徴量符号化部406は、1つの特徴点に対する150次元の局所特徴量から次元選定された局所特徴量を、例えば1次元を1バイトで符号化し、次元数のバイトで符号化することができる。
 《局所特徴量生成処理》
 次に、図4B~図4Fを用いて、本実施形態に係る局所特徴量生成部320、332の処理について詳しく説明する。
 まず、図4Bは、局所特徴量生成部320における、特徴点検出/局所領域取得/サブ領域分割/特徴ベクトル生成の一連の処理を示す図である。かかる一連の処理については、米国特許第6711293号明細書や、David G. Lowe著、「Distinctive image features from scale-invariant key points」、(米国)、International Journal of Computer Vision、60(2)、2004年、p. 91-110を参照されたい。
 (特徴点検出)
 特徴点検出部401はまず、図4Bの左上に示すように、映像中の画像から特徴点421を検出する。以下、1つの特徴点421を代表させて局所特徴量の生成を説明する。それぞれの特徴点421には、周辺画素の、輝度や彩度、色相などの値の変化の方向と大きさを要素として持つ矢印が付随している。また、図4Bの例では、60度間隔の6方向のいずれかに量子化する例を説明するが、これに限定されない。
 (局所領域取得)
 次に、局所領域取得部402は、図4Bの右上に示すように、例えば、特徴点421を中心にガウス窓422aを生成し、このガウス窓422aをほぼ含む局所領域422を生成した状態である。図4Bの例では、局所領域取得部402は正方形の局所領域422を生成したが、局所領域は円形であっても他の形状であってもよい。この局所領域を各特徴点について取得する。局所領域が円形であれば、撮影方向に対してロバスト性が向上するという効果がある。
 (サブ領域分割)
 サブ領域分割部403は、図4Bの左下に示すように、特徴点421の局所領域422に含まれる各画素のスケールおよび角度をサブ領域423に分割する。なお、図4Bでは4×4=16画素を1つのサブ領域としており、局所領域422は、合計5×5=25個のサブ領域に分割されている。しかし、サブ領域への分割の仕方およびその個数はこれに限定されるものではない。
 (サブ領域特徴ベクトル生成)
 サブ領域特徴ベクトル生成部404は、図4Bの右下に示すように、サブ領域内の各画素のスケールを8方向の角度単位にヒストグラムを生成して量子化し、サブ領域の特徴ベクトル424とする。すなわち、特徴点検出部401が出力する角度に対して正規化された方向である。そして、サブ領域特徴ベクトル生成部404は、サブ領域ごとに量子化された6方向の頻度を集計し、ヒストグラムを生成する。この場合、サブ領域特徴ベクトル生成部404は、各特徴点に対して生成される25サブ領域ブロック×6方向=150次元のヒストグラムにより構成される特徴ベクトルを出力する。また、勾配方向を6方向に量子化するだけに限らず、4方向、8方向、10方向など任意の量子化数に量子化してよい。勾配方向をD方向に量子化する場合、量子化前の勾配方向をG(0~2πラジアン)とすると、勾配方向の量子化値Qq(q=0,...,D-1)は、例えば式(1)や式(2)などで求めることができるが、これに限られない。
 Qq=floor(G×D/2π)    ...(1)
 Qq=round(G×D/2π)modD ...(2)
 ここで、floor()は小数点以下を切り捨てる関数、round()は四捨五入を行う関数、modは剰余を求める演算である。また、サブ領域特徴ベクトル生成部404は勾配ヒストグラムを生成するときに、単純な頻度を集計するのではなく、勾配の大きさを加算して集計してもよい。また、サブ領域特徴ベクトル生成部404は勾配ヒストグラムを集計するときに、画素が属するサブ領域だけではなく、サブ領域間の距離に応じて近接するサブ領域(隣接するブロックなど)にも重み値を加算するようにしてもよい。また、サブ領域特徴ベクトル生成部404は量子化された勾配方向の前後の勾配方向にも重み値を加算するようにしてもよい。なお、サブ領域の特徴ベクトルは勾配方向ヒストグラムに限られず、色情報など、複数の次元(要素)を有するものであればよい。本実施形態においては、サブ領域の特徴ベクトルとして、勾配方向ヒストグラムを用いることとして説明する。
 (次元選定)
 次に、図4C~図4Fに従って、次元選定部405が行なう次元選定処理について説明する。
 次元選定部405は、サブ領域の位置関係に基づいて、近接するサブ領域の特徴ベクトル間の相関が低くなるように、局所特徴量として出力する次元(要素)を選定する(間引きする)。より具体的には、次元選定部405は、例えば、隣接するサブ領域間では少なくとも1つの勾配方向が異なるように次元を選定する。なお、本実施形態では、次元選定部405は近接するサブ領域として主に隣接するサブ領域を用いることとするが、近接するサブ領域は隣接するサブ領域に限られず、例えば、対象のサブ領域から所定距離内にあるサブ領域を近接するサブ領域とすることもできる。
 図4Cは、局所領域を5×5ブロックのサブ領域に分割し、勾配方向を6方向に量子化して生成された150次元の勾配ヒストグラムの特徴ベクトル431から次元を選定する場合の一例を示す図である。図4Cの例では、150次元(5×5=25サブ領域ブロック×6方向)の特徴ベクトルから次元の選定が行われている。
 図4Cに示すように、次元選定部405は、150次元の勾配ヒストグラムの特徴ベクトル431から半分の75次元の勾配ヒストグラムの特徴ベクトル432を選定する。この場合、隣接する左右、上下のサブ領域ブロックでは、同一の勾配方向の次元が選定されないように、次元を選定することができる。
 この例では、勾配方向ヒストグラムにおける量子化された勾配方向をq(q=0,1,2,3,4,5)とした場合に、q=0,2,4の要素を選定するブロックと、q=1,3,5の要素を選定するサブ領域ブロックとが交互に並んでいる。そして、図4Cの例では、隣接するサブ領域ブロックで選定された勾配方向を合わせると、全6方向となっている。
 また、次元選定部405は、75次元の勾配ヒストグラムの特徴ベクトル432から50次元の勾配ヒストグラムの特徴ベクトル433を選定する。この場合、斜め45度に位置するサブ領域ブロック間で、1つの方向のみが同一になる(残り1つの方向は異なる)ように次元を選定することができる。
 また、次元選定部405は、50次元の勾配ヒストグラムの特徴ベクトル433から25次元の勾配ヒストグラムの特徴ベクトル434を選定する場合は、斜め45度に位置するサブ領域ブロック間で、選定される勾配方向が一致しないように次元を選定することができる。図4Cに示す例では、次元選定部405は、1次元から25次元までは各サブ領域から1つの勾配方向を選定し、26次元から50次元までは2つの勾配方向を選定し、51次元から75次元までは3つの勾配方向を選定している。
 このように、隣接するサブ領域ブロック間で勾配方向が重ならないように、また全勾配方向が均等に選定されることが望ましい。また同時に、図4Cに示す例のように、局所領域の全体から均等に次元が選定されることが望ましい。なお、図4Cに示した次元選定方法は一例であり、この選定方法に限らない。
 (局所領域の優先順位)
 図4Dは、局所特徴量生成部320における、サブ領域からの特徴ベクトルの選定順位の一例を示す図である。
 次元選定部405は、単に次元を選定するだけではなく、特徴点の特徴に寄与する次元から順に選定するように、選定の優先順位を決定することができる。すなわち、次元選定部405は、例えば、隣接するサブ領域ブロック間では同一の勾配方向の次元が選定されないように、優先順位をつけて次元を選定することができる。そして、次元選定部405は、選定した次元から構成される特徴ベクトルを、局所特徴量として出力する。なお、次元選定部405は、優先順位に基づいて次元を並び替えた状態で、局所特徴量を出力することができる。
 すなわち、次元選定部405は、1~25次元、26次元~50次元、51次元~75次元の間は、例えば図4Dのマトリクス441に示すようなサブ領域ブロックの順番で次元を追加するように選定していってもよい。図4Dのマトリクス441に示す優先順位を用いる場合、次元選定部405は、中心に近いサブ領域ブロックの優先順位を高くして、勾配方向を選定していくことができる。
 図4Eのマトリクス451は、図4Dの選定順位に従って、150次元の特徴ベクトルの要素の番号の一例を示す図である。この例では、5×5=25ブロックをラスタスキャン順に番号p(p=0,1,...,25)で表し、量子化された勾配方向をq(q=0,1,2,3,4,5)とした場合に、特徴ベクトルの要素の番号を6×p+qとしている。
 図4Fのマトリクス460は、図4Eの選定順位による150次元の順位が、25次元単位に階層化されていることを示す図である。すなわち、図4Fのマトリクス460は、図4Dのマトリクス441に示した優先順位に従って図4Eに示した要素を選定していくことにより得られる局所特徴量の構成例を示す図である。次元選定部405は、図4Fに示す順序で次元要素を出力することができる。具体的には、次元選定部405は、例えば150次元の局所特徴量を出力する場合、図4Fに示す順序で全150次元の要素を出力することができる。また、次元選定部405は、例えば25次元の局所特徴量を出力する場合、図4Fに示す1行目(76番目、45番目、83番目、...、120番目)の要素462を図4Fに示す順(左から右)に出力することができる。また、次元選定部405は、例えば50次元の局所特徴量を出力する場合、図4Fに示す1行目に加えて、図4Fに示す2行目の要素463を図4Fに示す順(左から右)に出力することができる。
 ところで、図4Fに示す例では、局所特徴量は階層的な構造となっている。すなわち、例えば、25次元の局所特徴量と150次元の局所特徴量とにおいて、先頭の25次元分の局所特徴量における要素461~466の並びは同一となっている。このように、次元選定部405は、階層的(プログレッシブ)に次元を選定することにより、アプリケーションや通信容量、端末スペックなどに応じて、任意の次元数の局所特徴量、すなわち任意のサイズの局所特徴量を抽出して出力することができる。また、次元選定部405が、階層的に次元を選定し、優先順位に基づいて次元を並び替えて出力することにより、異なる次元数の局所特徴量を用いて、画像の照合を行うことができる。例えば、75次元の局所特徴量と50次元の局所特徴量を用いて画像の照合が行われる場合、先頭の50次元だけを用いることにより、局所特徴量間の距離計算を行うことができる。
 なお、図4Dのマトリクス441から図4Fに示す優先順位は一例であり、次元を選定する際の順序はこれに限られない。例えば、ブロックの順番に関しては、図4Dのマトリクス441の例の他に、図4Dのマトリクス442や図4Dのマトリクス443に示すような順番でもよい。また、例えば、すべてのサブ領域からまんべんなく次元が選定されるように優先順位が定められることとしてもよい。また、局所領域の中央付近が重要として、中央付近のサブ領域の選定頻度が高くなるように優先順位が定められることとしてもよい。また、次元の選定順序を示す情報は、例えば、プログラムにおいて規定されていてもよいし、プログラムの実行時に参照されるテーブル等(選定順序記憶部)に記憶されていてもよい。
 また、次元選定部405は、サブ領域ブロックを1つ飛びに選択して、次元の選定を行ってもよい。すなわち、あるサブ領域では6次元が選定され、当該サブ領域に近接する他のサブ領域では0次元が選定される。このような場合においても、近接するサブ領域間の相関が低くなるようにサブ領域ごとに次元が選定されていると言うことができる。
 また、局所領域やサブ領域の形状は、正方形に限られず、任意の形状とすることができる。例えば、局所領域取得部402が、円状の局所領域を取得することとしてもよい。この場合、サブ領域分割部403は、円状の局所領域を例えば複数の局所領域を有する同心円に9分割や17分割のサブ領域に分割することができる。この場合においても、次元選定部405は、各サブ領域において、次元を選定することができる。
 以上、図4B~図4Fに示したように、本実施形態の局所特徴量生成部320によれば、局所特徴量の情報量を維持しながら生成された特徴ベクトルの次元が階層的に選定される。この処理により、認識精度を維持しながらリアルタイムでの対象物認識と認識結果の表示が可能となる。なお、局所特徴量生成部320の構成および処理は本例に限定されない。認識精度を維持しながらリアルタイムでの対象物認識と認識結果の表示が可能となる他の処理が当然に適用できる。
 《照合部》
 図4Gと図4Hは、本実施形態に係る照合部333の処理を説明する図である。図4Gは、通信端末221としての携帯電話やスマートフォンなどで撮影中に広告情報が表示される様子について説明する図である。あらかじめ広告対象物(本例では、自動車)から生成された局所特徴量が、広告情報データベース211に格納されているものとする。一方、ライブビュー表示画面471中の映像表示領域472からは、上述した処理により局所特徴量が生成される。そして、広告情報データベース211に格納された局所特徴量のそれぞれが、映像表示領域472から生成された局所特徴量中にあるか否かが判定される。
 図4Gに示すように、照合部333は、広告情報データベース211に格納されている局所特徴量473と合致する局所特徴量を有する映像表示領域472内の各特徴点を細線のように関連付ける。なお、照合部333は、局所特徴量の所定割合以上が一致する場合を特徴点の合致とする。そして、照合部333は、関連付けられた特徴点の集合間の位置関係が線形関係であれば、広告対象物であると認識する。このような認識を行なえば、サイズの大小や向きの違い(視点の違い)があっても、あるいは反転していても認識が可能である。また、対応する特徴点が所定数以上あれば認識精度が得られるので、一部が視界から隠れていても認識対象物の認識が可能である。認識の結果、撮影中の車(ここでは看板に表示された車の写真であるが、実物でもよい)が広告対象であると判断し、対応する広告情報474を導き出して、ライブビュー表示画面471に付加表示または重畳表示する。
 図4Hは、映像中の建築物を認識する照合例を示す図である。あらかじめ認識対象物(本例では、五重塔483)の局所特徴量482が広告情報データベース211に登録されているとする。スマートデバイスなどの通信端末221で、映画などの映像コンテンツを再生しているとする。この時、局所特徴量生成部320は、映像表示領域481から、上述のように局所特徴量を生成する。そして、広告配信サーバ210の照合部333は、広告情報データベース211に格納された局所特徴量482のそれぞれが、映像表示領域481から生成された局所特徴量中にあるか否かを判定する。
 具体的には、図4Hに示すように、広告情報データベース211に格納されている局所特徴量と所定の割合以上マッチングする局所特徴量を含む各特徴点を細線にように関連付ける。そして、関連付けられた特徴点の位置関係が線形関係であれば、認識対象物であると認識する。照合部333の照合処理では、特徴点座標と局所特徴量とに基づいて照合が行なわれるが、合致する認識対象物から生成された局所特徴量と映像中の画像から生成された局所特徴量との配列順序の線形関係のみによっても、認識が可能である。一方、本実施形態では、2次元画像によって説明されているが、3次元の特徴点座標を使用しても、同様の処理が可能である。
 《全体の処理の流れ》
 図5は、情報処理システム200における処理の流れを説明するシーケンス図である。まず、広告配信サーバ210の通信制御部330が広告提供者端末230から商品画像と広告情報を受信し(S501)、局所特徴量生成部332が、その商品画像から局所特徴量を生成する(S503)。次に、広告情報データベース211は、その局所特徴量と商品情報を格納する(S505)。
 一方、ステップS511において、撮像、映像再生、または映像受信を行なうと、ステップS512に進み、画像展開部313が画像メモリに1画面分の画像を展開する。ステップS513では、局所特徴量生成部320が、展開した画像中から上述した処理により局所特徴量を生成する。そしてステップS515では、符号化部321が生成した局所特徴量を符号化し、ステップS517において、通信制御部330が特徴点座標を含む局所特徴量を広告配信サーバ210に送信する。
 広告配信サーバ210は、受信した局所特徴量とマッチングする局所特徴量が、広告情報データベース211に格納されているか判定し(S519、S521)、格納されている場合には、その局所特徴量に対応する広告情報を取得する(S523)。通信制御部3360は、取得した広告情報を通信端末221~225に送信する(S525)。この時、認識商品の情報や広告表示位置を同時に送ってもよい。これらの情報は、広告情報データベース211に記憶されていてもよい。
 通信端末221は、受信した広告情報に基づいて所定の位置に広告表示を行なう(S527)。この時同時に音声を出力してもよい。
 図6は、広告情報データベース211の構成例を示す図である。広告情報データベース211は、図6に示すように、商品IDと、商品名と、その商品の画像から生成した局所特徴量と、広告情報とを対応付けて格納している。これにより、局所特徴量から、その商品の情報および広告情報を導き出すことが可能となる。
 図7は、広告情報を広告配信サーバ210が通信端末221~225に配信する際の送信フォーマット701を示す図である。図7に示すように、広告情報の送信フォーマットは、送信ヘッダの他、商品ID、商品名、表示位置、広告情報を含む。その他、広告表示タイミングやその表示継続時間などを通信端末221~225に送信してもよい。
 《ハードウェア構成とそれぞれの処理》
 図8は、通信端末221~225のハードウェア構成を示す図である。CPU810は演算制御用のプロセッサであり、プログラムを実行することで通信端末の各機能構成部を実現する。ROM820は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部330は通信制御部であり、本実施形態においては、ネットワークを介して他の装置と通信する。なお、CPU810は1つに限定されず、複数のCPUであっても、あるいは画像処理用のGPU(Graphics Processing Unit)を含んでもよい。
 RAM840は、CPU810が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM840には、本実施形態の実現に必要なデータを記憶する領域が確保されている。展開画像データ841は、撮像部310が撮像して入力されたデータである。特徴点データ842は、展開画像データ841から検出した特徴点座標、スケール、角度を含むデータである。局所特徴量生成テーブル843は、局所特徴量の生成に関するデータを記憶するテーブルである。広告情報844は、入力映像から生成された局所特徴量と広告情報データベース211に格納された局所特徴量との照合から導かれた情報である。広告表示データ845は、広告情報844をユーザに報知するためのデータである。なお、音声出力をする場合には、照合結果音声データが含まれてもよい。
 ストレージ850には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。通信端末制御プログラム851は、通信端末全体を制御するプログラムである。局所特徴量生成モジュール852は、入力映像から図4B~図4Fに従って局所特徴量を生成する。符号化モジュール853は、局所特徴量を符号化するモジュールであり、CPU810に実行されることにより符号化部321として機能する。広告生成モジュール854は、広告画像を生成するためのモジュールであり、CPU810に実行されることにより広告画像生成部324として機能する。
 入出力インタフェース860は、入出力機器との入出力データを中継する。入出力インタフェース860には、表示部325、タッチパネル862、スピーカ864、マイク865、撮像部310が接続される。入出力機器は上記例に限定されない。また、GPS(Global Positioning System)位置生成部866は、GPS衛星からの信号に基づいて現在位置を取得する。
 (局所特徴量生成データ)
 図9は、本実施形態に係る局所特徴量生成テーブル843を示す図である。
 局所特徴量生成テーブル843は、入力画像IDに対応付けて、複数の検出された検出特徴点、特徴点座標および特徴点に対応する局所領域情報を記憶する。そして、各検出特徴点、特徴点座標および局所領域情報に対応付けて、複数のサブ領域ID、サブ領域情報、各サブ領域に対応する特徴ベクトルおよび優先順位を含む選定次元を記憶する。
 (処理の流れ)
 図10は、通信端末221~225で行なわれる処理の流れを説明するフローチャートである。まずステップS1011において画像を入力すると、ステップS1013において、局所特徴量生成部320が局所特徴量の生成処理を行なう。そして、ステップS1015において、広告配信サーバ210に対して、局所特徴量を送信する。画像を入力したのではなくステップS1021において、外部からデータを受信したと判断した場合には、ステップS1023において、そのデータが広告情報か否か判定し、広告情報の場合には、ステップS1025で広告の提供を行なう。
 図11は、図10のステップS1013で行なわれる局所特徴量生成処理の流れについて説明するためのフローチャートである。ステップS1101においては、まず、特徴点検出部401が特徴点を検出する。次に、ステップS1103において、局所領域取得部402が、一つの特徴点の局所領域を取得する。さらにステップS1105において、サブ領域分割部403が、局所領域をサブ領域に分割する。ステップS1107においては、サブ領域特徴ベクトル生成部404が、サブ領域の特徴ベクトルを生成する。さらに、次元選定部405が、ステップS1109において、次元を選定する。ステップS1111では、すべての特徴点に対して次元選定処理が完了したか判断し、完了していなければ、ステップS1103に戻る。
 図12は、広告配信サーバ210のハードウェア構成を示す図である。ここでCPU1210は演算制御用のプロセッサであり、プログラムを実行することで広告配信サーバ210の各機能構成部を実現する。ROM1220は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部510は、ネットワークを介して他の装置と通信するためのユニットである。なお、CPU1210は1つに限定されず、複数のCPUであっても、あるいは画像処理用のGPU(Graphics Processing Unit)を含んでもよい。
 RAM1240は、CPU1210が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM1240には、本実施形態の実現に必要なデータを記憶する領域が確保されている。一方、ストレージ1250は、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムを記憶する大容量記憶媒体である。
 RAM1240に格納された商品画像1241は、広告提供者端末230から受信した商品の画像である。局所特徴量1242は、商品画像1241を解析して生成された情報である。また、広告情報1243は、広告提供者端末230から受信した広告に関する情報または通信端末221~225に対して送信するための広告に関する情報である。
 ストレージ1250の広告情報データベース211は、広告情報1243と局所特徴量1242とを対応付けて格納している。
 ストレージ1250は、局所特徴量の生成処理を行なう局所特徴量生成モジュール1252を格納している。CPU1210が局所特徴量生成モジュール1252を実行することにより、局所特徴量生成部332として機能する。
 ストレージ1250は、局所特徴量の照合処理を行なう照合モジュール1253を格納している。CPU1210が照合モジュール1253を実行することにより、照合部333として機能する。
 RAM1240は、また、照合モジュール1253での照合処理に用いるべく通信端末221~225から受信した局所特徴量1244を一時的に記憶する。
 (広告配信サーバの処理手順)
 図13は、広告配信サーバの処理手順について説明するためのフローチャートである。まず、ステップS1311において、広告提供者端末230から商品画像および広告情報を受信したか否か判定する。広告情報を受信した場合に、ステップS1313に進み、広告情報データベースに対する広告情報の登録処理を行なう。一方、広告提供者端末230から商品画像および広告情報ではなく、局所特徴量を受信した場合には、ステップS1321からステップS1323に進み、商品認識、広告取得処理を行ない、さらにステップS1325において、広告情報の配信処理を行なう。
 図14は、広告情報の登録処理(S1313)について説明するためのフローチャートである。ステップS1401において、広告商品の画像を取得すると、次に、ステップs1403においてまず、特徴点検出部401が特徴点を検出する。次に、ステップS1405において、局所領域取得部402が、一つの特徴点の局所領域を取得する。さらにステップS1407において、サブ領域分割部403が、取得した局所領域をサブ領域に分割する。ステップS1409においては、サブ領域特徴ベクトル生成部404が、サブ領域の特徴ベクトルを生成する。さらに、次元選定部405が、ステップS1410において、次元を選定する。ステップS1411では、すべての特徴点に対して次元選定処理が完了したか判断し、完了していなければ、ステップS1405に戻る。
 特徴量の生成処理が完了すれば、ステップS1413に進み、受信した広告情報を局所特徴量に対応付けて広告情報データベース211に登録する。他の広告商品画像があれば、ステップS1401からの処理を繰り返し、なければ処理を終了する(S1417)。
 図15は、商品認識/広告取得処理(S1323)について詳しく説明するためのフローチャートである。まずステップS1501において1つの広告商品の局所特徴量を取得すると、ステップS1503に進み、広告商品の局所特徴量と受信した局所特徴量とを照合する。照合の結果合致していれば(S1505)、ステップS1507に進んで合致した広告商品の広告情報を取得して、ステップS1509に進む。ステップS1505で合致していなければ、やはりステップS1509に進み、全広告商品について処理が終了していなければ、ステップS1501に戻る。
 以上の実施形態によれば、撮影中の表示画面や、配信された動画、あるいは記憶した動画の再生時の画面に対して、その画像に含まれる対象物に関連する広告をリアルタイムに表示することができる。
 [第3実施形態]
 次に本発明の第3実施形態に係る情報処理システム1600について、図16以降を用いて説明する。図16は、本実施形態に係る情報処理システム1600の概略全体構成を説明するための図である。本実施形態に係る情報処理システム1600は、上記第2実施形態と比べると、リンク情報データベース1611を備えたリンク提供サーバ1610を有する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 リンク情報データベース1611は、局所特徴量に対応付けてリンク情報を格納している。
 図17は、情報処理システム1600全体の処理を示すシーケンス図である。第2実施形態と異なり、ステップS1705においてリンク情報データベース1611にリンク情報を登録する。また、ステップS1623ではリンク情報をリンク情報データベース1611から取得して、ステップS1625で通信端末221~225に送信し、ステップ1627では、例えば商品購入サイトへのリンクを通信端末221~225の画面にアクセス可能に表示する。他の処理は第2実施形態と同様であるため、同じ処理については同じ符号を付してその詳しい説明を省略する。図18は、リンク情報データベース1611の構成を示す図であり、図19は、リンク情報の送信フォーマット1901を示す図である。
 以上のように、広告情報の代わりにリンク情報を通信端末221~225に送信してアクセス可能に表示させることにより、ユーザをそのリンクを介して商品購入サイトに誘導することが可能となる。
 [第4実施形態]
 次に本発明の第4実施形態に係る情報処理システムについて、図20を用いて説明する。図20は、本実施形態に係る情報処理システムの全体処理を説明するための図である。本実施形態に係る情報処理システムは、上記第3実施形態と比べると、リンク情報データベース1611を備えたリンク提供サーバ1610の代わりに試聴データデータベース2011を備えた試聴データ提供サーバ2010を有する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。なお第4実施形態では、「試聴データ」をユーザに提供するが、この「試聴データ」は音声データに限らず、映像データを含んでもよいものとする。
 試聴データデータベース2011は、局所特徴量に対応付けて試聴データを格納している。通信端末221~225で表示した映像に含まれる商品に対応する試聴データを試聴データデータベース2011から読み出して(S2023)、通信端末221~225に送信し(S2025)、通信端末で再生する(S2027)。
 他の処理は第2実施形態と同様であるため、同じ処理については同じ符号を付してその詳しい説明を省略する。
 以上のように、広告情報の代わりにリンク情報を通信端末221~225に送信することにより、ユーザをそのリンクを介して商品購入画面に誘導することが可能となる。
 [第5実施形態]
 次に本発明の第5実施形態に係る情報処理システムについて、図21を用いて説明する。図21は、本実施形態に係る情報処理システムの全体処理を説明するための図である。本実施形態に係る情報処理システムは、上記第2実施形態と比べると、コンテンツ提供サーバ2101が追加されている点で異なる。コンテンツ提供サーバ2001は、通信端末からのコンテンツ要求に応えてコンテンツを検索し(S2102)、見つかったコンテンツデータを広告配信サーバ210に送信する(S2103)。広告配信サーバ210は、受信したコンテンツデータを分析してそこに含まれる商品の局所特徴量から広告情報を導き出し、コンテンツデータにその広告情報を埋め込む(S2125)。そして、通信端末に対して、広告埋込コンテンツを送信し(S2126)、通信端末において、広告が埋め込まれたコンテンツを再生する(S2127)。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 以上のように、コンテンツ提供サーバが提供するコンテンツに広告を埋め込むことが可能となる。
 [第6実施形態]
 その他、図22の広告評価テーブル2212に示すように、広告の出現頻度をカウントすることにより、広告評価を行なってもよい。つまり、第1~第5実施形態の方法で広告やリンクなどを表示する際にその回数を数えて、回数に応じた評価を行ない、評価に応じてその広告について課金を行なうことも可能である。
 [他の実施形態]
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
 この出願は、2011年12月16日に出願された日本出願特願2011-276524を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 対象物の画像中のm個の特徴点のそれぞれを含むm個の局所領域のそれぞれについて生成された、それぞれ1次元からi次元までの特徴ベクトルからなるm個の第1局所特徴量を、前記対象物と対応付けて記憶する第1局所特徴量記憶手段と、
 映像中からn個の特徴点を抽出し、前記n個の特徴点のそれぞれを含むn個の局所領域について、それぞれ1次元からj次元までの特徴ベクトルからなるn個の第2局所特徴量を生成する第2局所特徴量生成手段と、
 前記第1局所特徴量の特徴ベクトルの次元数iおよび前記第2局所特徴量の特徴ベクトルの次元数jのうち、より少ない次元数を選択し、選択された前記次元数までの特徴ベクトルからなる前記n個の第2局所特徴量に、選択された前記次元数までの特徴ベクトルからなる前記m個の第1局所特徴量の所定割合以上が対応する、と判定した場合に、前記映像中に前記対象物が存在すると認識する認識手段と、
 前記認識手段が認識した前記対象物に関連する広告情報を提供する広告情報提供手段と、
 を備えることを特徴とする情報処理システム。
 (付記2)
 前記第1局所特徴量記憶手段は、さらに、前記対象物に関連する広告情報を、前記対象物と対応付けて記憶し、
 前記広告情報提供手段は、前記第1局所特徴量記憶手段を参照して、前記認識手段が認識した前記対象物に関連する広告情報を表示することを特徴とする付記1に記載の情報処理システム。
 (付記3)
 前記認識手段により、前記映像中に前記対象物が存在すると認識された場合に、前記映像中の前記対象物の画像に対して、関連する広告情報を付加する広告情報付加手段を、さらに備えたことを特徴とする付記1または2に記載の情報処理システム。
 (付記4)
 前記広告情報提供手段は、前記広告情報として、前記映像中の前記対象物である商品の購入サイトへのリンクをアクセス可能に表示することを特徴とする付記1乃至3のいずれか1つに記載の情報処理システム。
 (付記5)
 前記対象物は、音楽および映像の少なくともいずれかを含むコンテンツを記憶した記憶媒体であり、
 前記広告情報提供手段は、前記広告情報として、前記音楽および映像の少なくともいずれかを含むコンテンツの一部を視聴可能に表示することを特徴とする付記1乃至4のいずれか1つに記載の情報処理システム。
 (付記6)
 前記情報処理システムは、通信端末と、前記通信端末に対して通信回線で接続された情報処理装置とを有し、
 前記通信端末は、前記第2局所特徴量生成手段を含み、前記n個の第2局所特徴量を前記情報処理装置へ送信し、
 前記情報処理装置は、前記第1局所特徴量記憶手段と前記認識手段と前記広告情報提供手段とを含み、前記広告情報を前記通信端末へ送信することを特徴とする付記1乃至5のいずれか1つに記載の情報処理システム。
 (付記7)
 前記第1局所特徴量および前記第2局所特徴量は、画像または映像中から抽出した特徴点を含む局所領域を複数のサブ領域に分割し、前記複数のサブ領域内の勾配方向のヒストグラムからなる複数次元の特徴ベクトルを生成することにより生成されることを特徴とする付記1乃至6のいずれか1つに記載の情報処理システム。
 (付記8)
 前記第1局所特徴量および前記第2局所特徴量は、前記生成した複数次元の特徴ベクトルから、隣接するサブ領域間の相関がより大きな次元を選定することにより生成されることを特徴とする付記7に記載の情報処理システム。
 (付記9)
 前記特徴ベクトルの複数次元は、前記特徴点の特徴に寄与する次元から順に、かつ、前記局所特徴量に対して求められる精度の向上に応じて第1次元から順に選択できるよう、所定次元数ごとに前記局所領域内を一巡りするよう配列することを特徴とする付記7乃至8のいずれか1つに記載の情報処理システム。
 (付記10)
 前記第2局所特徴量生成手段は、前記対象物間の相関性の高低に対応して、他の対象物に対してより高い前記相関性を有する対象物については、次元数のより多い前記第2局所特徴量を生成することを特徴とする付記9に記載の情報処理システム。
 (付記11)
 前記第1局所特徴量記憶手段は、他の対象物に対してより高い相関を有する対象物については、次元数のより多い前記第1局所特徴量を記憶することを特徴とする付記9または10に記載の情報処理システム。
 (付記12)
 映像中からn個の特徴点を抽出し、前記n個の特徴点のそれぞれを含むn個の局所領域について、それぞれ1次元からj次元までの特徴ベクトルからなるn個の第2局所特徴量を生成する第2局所特徴量生成ステップと、
 対象物の画像中のm個の特徴点のそれぞれを含むm個の局所領域のそれぞれについてあらかじめ生成され第1局所特徴量記憶手段に記憶された、それぞれ1次元からi次元までの特徴ベクトルからなるm個の第1局所特徴量を、前記第1局所特徴量記憶手段から読出す読出ステップと、
 前記第1局所特徴量の特徴ベクトルの次元数iおよび前記第2局所特徴量の特徴ベクトルの次元数jのうち、より少ない次元数を選択し、選択された前記次元数までの特徴ベクトルからなる前記n個の第2局所特徴量に、選択された前記次元数までの特徴ベクトルからなる前記m個の第1局所特徴量の所定割合以上が対応する、と判定した場合に、前記映像中に前記対象物が存在すると認識する認識ステップと、
 前記認識ステップで認識された前記対象物に関連する広告情報を提供する広告情報提供ステップと、
 を含むことを特徴とする情報処理方法。
 (付記13)
 対象物の画像を撮像する撮像手段と、
 前記撮像手段が撮像した前記画像中からm個の特徴点を抽出し、前記m個の特徴点のそれぞれを含むm個の局所領域についてm個の第2局所特徴量を生成する第2局所特徴量生成手段と、
 前記第2局所特徴量生成手段が生成した前記m個の第2局所特徴量を、局所特徴量の照合に基づいて前記撮像手段が撮像した前記画像中に含まれる対象物を認識する情報処理装置に送信する第2局所特徴量送信手段と、
 前記撮像手段が撮像した前記画像中に含まれる前記対象物に関連する広告情報を前記情報処理装置から受信して提供する広告情報提供手段と、
 を備えたことを特徴とする通信端末。
 (付記14)
 対象物の画像を撮像する撮像ステップと、
 前記画像中からm個の特徴点を抽出し、前記m個の特徴点のそれぞれを含むm個の局所領域についてm個の第2局所特徴量を生成する第2局所特徴量生成ステップと、
 局所特徴量の照合に基づいて前記画像中に含まれる対象物を認識する情報処理装置に、前記m個の第2局所特徴量を送信する第2局所特徴量送信ステップと、
 前記画像中に含まれる前記対象物に関連する広告情報を前記情報処理装置から受信して提供する広告情報提供ステップと、
 を備えたことを特徴とする通信端末の制御方法。
 (付記15)
 対象物の画像を撮像する撮像ステップと、
 前記画像中からm個の特徴点を抽出し、前記m個の特徴点のそれぞれを含むm個の局所領域についてm個の第2局所特徴量を生成する第2局所特徴量生成ステップと、
 局所特徴量の照合に基づいて前記画像中に含まれる対象物を認識する情報処理装置に、前記m個の第2局所特徴量を送信する第2局所特徴量送信ステップと、
 前記画像中に含まれる前記対象物に関連する広告情報を前記情報処理装置から受信して提供する広告情報提供ステップと、
 をコンピュータに実行させることを特徴とする通信端末の制御プログラム。

Claims (15)

  1.  対象物の画像中のm個の特徴点のそれぞれを含むm個の局所領域のそれぞれについて生成された、それぞれ1次元からi次元までの特徴ベクトルからなるm個の第1局所特徴量を、前記対象物と対応付けて記憶する第1局所特徴量記憶手段と、
     映像中からn個の特徴点を抽出し、前記n個の特徴点のそれぞれを含むn個の局所領域について、それぞれ1次元からj次元までの特徴ベクトルからなるn個の第2局所特徴量を生成する第2局所特徴量生成手段と、
     前記第1局所特徴量の特徴ベクトルの次元数iおよび前記第2局所特徴量の特徴ベクトルの次元数jのうち、より少ない次元数を選択し、選択された前記次元数までの特徴ベクトルからなる前記n個の第2局所特徴量に、選択された前記次元数までの特徴ベクトルからなる前記m個の第1局所特徴量の所定割合以上が対応する、と判定した場合に、前記映像中に前記対象物が存在すると認識する認識手段と、
     前記認識手段が認識した前記対象物に関連する広告情報を提供する広告情報提供手段と、
     を備えることを特徴とする情報処理システム。
  2.  前記第1局所特徴量記憶手段は、さらに、前記対象物に関連する広告情報を、前記対象物と対応付けて記憶し、
     前記広告情報提供手段は、前記第1局所特徴量記憶手段を参照して、前記認識手段が認識した前記対象物に関連する広告情報を表示することを特徴とする請求項1に記載の情報処理システム。
  3.  前記認識手段により、前記映像中に前記対象物が存在すると認識された場合に、前記映像中の前記対象物の画像に対して、関連する広告情報を付加する広告情報付加手段を、さらに備えたことを特徴とする請求項1または2に記載の情報処理システム。
  4.  前記広告情報提供手段は、前記広告情報として、前記映像中の前記対象物である商品の購入サイトへのリンクをアクセス可能に表示することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理システム。
  5.  前記対象物は、音楽および映像の少なくともいずれかを含むコンテンツを記憶した記憶媒体であり、
     前記広告情報提供手段は、前記広告情報として、前記音楽および映像の少なくともいずれかを含むコンテンツの一部を視聴可能に表示することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理システム。
  6.  前記情報処理システムは、通信端末と、前記通信端末に対して通信回線で接続された情報処理装置とを有し、
     前記通信端末は、前記第2局所特徴量生成手段を含み、前記n個の第2局所特徴量を前記情報処理装置へ送信し、
     前記情報処理装置は、前記第1局所特徴量記憶手段と前記認識手段と前記広告情報提供手段とを含み、前記広告情報を前記通信端末へ送信することを特徴とする請求項1乃至5のいずれか1項に記載の情報処理システム。
  7.  前記第1局所特徴量および前記第2局所特徴量は、画像または映像中から抽出した特徴点を含む局所領域を複数のサブ領域に分割し、前記複数のサブ領域内の勾配方向のヒストグラムからなる複数次元の特徴ベクトルを生成することにより生成されることを特徴とする請求項1乃至6のいずれか1項に記載の情報処理システム。
  8.  前記第1局所特徴量および前記第2局所特徴量は、前記生成した複数次元の特徴ベクトルから、隣接するサブ領域間の相関がより大きな次元を選定することにより生成されることを特徴とする請求項7に記載の情報処理システム。
  9.  前記特徴ベクトルの複数次元は、前記特徴点の特徴に寄与する次元から順に、かつ、前記局所特徴量に対して求められる精度の向上に応じて第1次元から順に選択できるよう、所定次元数ごとに前記局所領域内を一巡りするよう配列することを特徴とする請求項7乃至8のいずれか1項に記載の情報処理システム。
  10.  前記第2局所特徴量生成手段は、前記対象物間の相関性の高低に対応して、他の対象物に対してより高い前記相関性を有する対象物については、次元数のより多い前記第2局所特徴量を生成することを特徴とする請求項9に記載の情報処理システム。
  11.  前記第1局所特徴量記憶手段は、他の対象物に対してより高い相関を有する対象物については、次元数のより多い前記第1局所特徴量を記憶することを特徴とする請求項9または10に記載の情報処理システム。
  12.  映像中からn個の特徴点を抽出し、前記n個の特徴点のそれぞれを含むn個の局所領域について、それぞれ1次元からj次元までの特徴ベクトルからなるn個の第2局所特徴量を生成する第2局所特徴量生成ステップと、
     対象物の画像中のm個の特徴点のそれぞれを含むm個の局所領域のそれぞれについてあらかじめ生成され第1局所特徴量記憶手段に記憶された、それぞれ1次元からi次元までの特徴ベクトルからなるm個の第1局所特徴量を、前記第1局所特徴量記憶手段から読出す読出ステップと、
     前記第1局所特徴量の特徴ベクトルの次元数iおよび前記第2局所特徴量の特徴ベクトルの次元数jのうち、より少ない次元数を選択し、選択された前記次元数までの特徴ベクトルからなる前記n個の第2局所特徴量に、選択された前記次元数までの特徴ベクトルからなる前記m個の第1局所特徴量の所定割合以上が対応する、と判定した場合に、前記映像中に前記対象物が存在すると認識する認識ステップと、
     前記認識ステップで認識された前記対象物に関連する広告情報を提供する広告情報提供ステップと、
     を含むことを特徴とする情報処理方法。
  13.  対象物の画像を撮像する撮像手段と、
     前記撮像手段が撮像した前記画像中からm個の特徴点を抽出し、前記m個の特徴点のそれぞれを含むm個の局所領域についてm個の第2局所特徴量を生成する第2局所特徴量生成手段と、
     前記第2局所特徴量生成手段が生成した前記m個の第2局所特徴量を、局所特徴量の照合に基づいて前記撮像手段が撮像した前記画像中に含まれる対象物を認識する情報処理装置に送信する第2局所特徴量送信手段と、
     前記撮像手段が撮像した前記画像中に含まれる前記対象物に関連する広告情報を前記情報処理装置から受信して提供する広告情報提供手段と、
     を備えたことを特徴とする通信端末。
  14.  対象物の画像を撮像する撮像ステップと、
     前記画像中からm個の特徴点を抽出し、前記m個の特徴点のそれぞれを含むm個の局所領域についてm個の第2局所特徴量を生成する第2局所特徴量生成ステップと、
     局所特徴量の照合に基づいて前記画像中に含まれる対象物を認識する情報処理装置に、前記m個の第2局所特徴量を送信する第2局所特徴量送信ステップと、
     前記画像中に含まれる前記対象物に関連する広告情報を前記情報処理装置から受信して提供する広告情報提供ステップと、
     を備えたことを特徴とする通信端末の制御方法。
  15.  対象物の画像を撮像する撮像ステップと、
     前記画像中からm個の特徴点を抽出し、前記m個の特徴点のそれぞれを含むm個の局所領域についてm個の第2局所特徴量を生成する第2局所特徴量生成ステップと、
     局所特徴量の照合に基づいて前記画像中に含まれる対象物を認識する情報処理装置に、前記m個の第2局所特徴量を送信する第2局所特徴量送信ステップと、
     前記画像中に含まれる前記対象物に関連する広告情報を前記情報処理装置から受信して提供する広告情報提供ステップと、
     をコンピュータに実行させることを特徴とする通信端末の制御プログラム。
PCT/JP2012/082230 2011-12-16 2012-12-12 情報処理システム、情報処理方法、通信端末およびその制御方法と制御プログラム WO2013089146A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/365,955 US10115127B2 (en) 2011-12-16 2012-12-12 Information processing system, information processing method, communications terminals and control method and control program thereof
JP2013549287A JP6168355B2 (ja) 2011-12-16 2012-12-12 情報処理システム、情報処理方法、通信端末およびその制御方法と制御プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011276524 2011-12-16
JP2011-276524 2011-12-16

Publications (1)

Publication Number Publication Date
WO2013089146A1 true WO2013089146A1 (ja) 2013-06-20

Family

ID=48612590

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/082230 WO2013089146A1 (ja) 2011-12-16 2012-12-12 情報処理システム、情報処理方法、通信端末およびその制御方法と制御プログラム

Country Status (3)

Country Link
US (1) US10115127B2 (ja)
JP (1) JP6168355B2 (ja)
WO (1) WO2013089146A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018078576A (ja) * 2017-11-24 2018-05-17 ビセンゼ・ピーティーイー・リミテッド 関連するメディアコンテントを識別するための方法及びシステム
US10715862B2 (en) 2015-02-24 2020-07-14 Visenze Pte Ltd Method and system for identifying relevant media content
CN111741327A (zh) * 2019-03-25 2020-10-02 华为技术有限公司 一种媒体处理方法及媒体服务器
JP2020173731A (ja) * 2019-04-12 2020-10-22 富士通株式会社 提供プログラム、提供方法、提供サーバ及び情報処理端末
KR20210110030A (ko) * 2020-02-28 2021-09-07 권태완 멀티미디어 콘텐츠 내 상품 정보 제공 장치 및 방법
WO2021182091A1 (ja) * 2020-03-09 2021-09-16 ソニーグループ株式会社 画像処理装置、画像処理方法、およびプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792528B2 (en) * 2012-01-30 2017-10-17 Nec Corporation Information processing system, information processing method, information processing apparatus and control method and control program thereof, and communication terminal and control method and control program thereof
US9678999B1 (en) * 2014-12-31 2017-06-13 Teradata Us, Inc. Histogram generation on multiple dimensions
US10200759B1 (en) * 2017-07-28 2019-02-05 Rovi Guides, Inc. Systems and methods for identifying and correlating an advertised object from a media asset with a demanded object from a group of interconnected computing devices embedded in a living environment of a user
WO2020107267A1 (zh) * 2018-11-28 2020-06-04 华为技术有限公司 一种图像特征点匹配方法及装置
CN110473015A (zh) * 2019-08-09 2019-11-19 南京智骋致想电子科技有限公司 一种智能广告系统及广告投放方法
CN111383054A (zh) * 2020-03-10 2020-07-07 中国联合网络通信集团有限公司 广告检验方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278857A (ja) * 2001-03-16 2002-09-27 Sanyo Electric Co Ltd アドレス検出装置
JP2002534017A (ja) * 1998-12-21 2002-10-08 ソニー エレクトロニクス インク オンデマンド広告提供装置及びオンデマンド広告提供方法
JP2006209657A (ja) * 2005-01-31 2006-08-10 Bandai Co Ltd オーサリング装置、オーサリング方法およびコンピュータプログラム
JP2010518507A (ja) * 2007-02-13 2010-05-27 オリンパス株式会社 特徴マッチング方法
JP2011008507A (ja) * 2009-06-25 2011-01-13 Kddi Corp 画像検索方法およびシステム
WO2011017557A1 (en) * 2009-08-07 2011-02-10 Google Inc. Architecture for responding to a visual query
JP2011198130A (ja) * 2010-03-19 2011-10-06 Fujitsu Ltd 画像処理装置及び画像処理プログラム
JP2011254460A (ja) * 2010-05-31 2011-12-15 Solspectrum Co Ltd 時間に応じて動的に広告が反映される動画提供システム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
JP2003122757A (ja) 2001-10-10 2003-04-25 Sony Corp 検索案内システム、端末装置およびサーバ装置
JP2007018166A (ja) * 2005-07-06 2007-01-25 Nec Corp 情報検索装置、情報検索システム、情報検索方法及び情報検索プログラム
US20100092093A1 (en) 2007-02-13 2010-04-15 Olympus Corporation Feature matching method
JP4988408B2 (ja) 2007-04-09 2012-08-01 株式会社デンソー 画像認識装置
US8670597B2 (en) 2009-08-07 2014-03-11 Google Inc. Facial recognition with social network aiding
US9087059B2 (en) 2009-08-07 2015-07-21 Google Inc. User interface for presenting search results for multiple regions of a visual query

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002534017A (ja) * 1998-12-21 2002-10-08 ソニー エレクトロニクス インク オンデマンド広告提供装置及びオンデマンド広告提供方法
JP2002278857A (ja) * 2001-03-16 2002-09-27 Sanyo Electric Co Ltd アドレス検出装置
JP2006209657A (ja) * 2005-01-31 2006-08-10 Bandai Co Ltd オーサリング装置、オーサリング方法およびコンピュータプログラム
JP2010518507A (ja) * 2007-02-13 2010-05-27 オリンパス株式会社 特徴マッチング方法
JP2011008507A (ja) * 2009-06-25 2011-01-13 Kddi Corp 画像検索方法およびシステム
WO2011017557A1 (en) * 2009-08-07 2011-02-10 Google Inc. Architecture for responding to a visual query
JP2011198130A (ja) * 2010-03-19 2011-10-06 Fujitsu Ltd 画像処理装置及び画像処理プログラム
JP2011254460A (ja) * 2010-05-31 2011-12-15 Solspectrum Co Ltd 時間に応じて動的に広告が反映される動画提供システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIRONOBU FUJIYOSHI: "Gradient-Based Feature Extraction -SIFT and HOG", IEICE TECHNICAL REPORT, vol. 107, no. 206, 27 August 2007 (2007-08-27), pages 211 - 224 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10715862B2 (en) 2015-02-24 2020-07-14 Visenze Pte Ltd Method and system for identifying relevant media content
US10779037B2 (en) 2015-02-24 2020-09-15 Visenze Pte Ltd Method and system for identifying relevant media content
JP2018078576A (ja) * 2017-11-24 2018-05-17 ビセンゼ・ピーティーイー・リミテッド 関連するメディアコンテントを識別するための方法及びシステム
CN111741327A (zh) * 2019-03-25 2020-10-02 华为技术有限公司 一种媒体处理方法及媒体服务器
CN111741327B (zh) * 2019-03-25 2022-09-02 华为技术有限公司 一种媒体处理方法及媒体服务器
US12014545B2 (en) 2019-03-25 2024-06-18 Huawei Technologies Co., Ltd. Media processing method and media server
JP2020173731A (ja) * 2019-04-12 2020-10-22 富士通株式会社 提供プログラム、提供方法、提供サーバ及び情報処理端末
KR20210110030A (ko) * 2020-02-28 2021-09-07 권태완 멀티미디어 콘텐츠 내 상품 정보 제공 장치 및 방법
KR102522989B1 (ko) * 2020-02-28 2023-04-18 주식회사 아토맘코리아 멀티미디어 콘텐츠 내 상품 정보 제공 장치 및 방법
WO2021182091A1 (ja) * 2020-03-09 2021-09-16 ソニーグループ株式会社 画像処理装置、画像処理方法、およびプログラム

Also Published As

Publication number Publication date
US20140310097A1 (en) 2014-10-16
JP6168355B2 (ja) 2017-07-26
US10115127B2 (en) 2018-10-30
JPWO2013089146A1 (ja) 2015-04-27

Similar Documents

Publication Publication Date Title
JP6168355B2 (ja) 情報処理システム、情報処理方法、通信端末およびその制御方法と制御プログラム
CN101038593B (zh) 表示图像组的方法和装置
KR101612212B1 (ko) 국소 특징 기술자 추출 장치, 국소 특징 기술자 추출 방법, 및 프로그램을 기록한 컴퓨터 판독가능 기록 매체
US9792528B2 (en) Information processing system, information processing method, information processing apparatus and control method and control program thereof, and communication terminal and control method and control program thereof
JP6044547B2 (ja) 局所特徴量抽出装置、局所特徴量抽出方法、及びプログラム
CN101855635A (zh) 可靠地与媒体内容对应的媒体指纹
CN103517087B (zh) 串流编辑方法、系统与装置和储存方法、系统与提供系统
KR20140102181A (ko) 정보 처리 장치, 정보 처리 방법 및 프로그램
EP2870568B1 (en) Method for transforming an image descriptor based on a gradient histogram and relative image processing apparatus
US9165220B2 (en) Image object recognition based on a feature vector with context information
JP6153086B2 (ja) 映像処理システム、映像処理方法、携帯端末用またはサーバ用の映像処理装置およびその制御方法と制御プログラム
WO2013115092A1 (ja) 映像処理システム、映像処理方法、映像処理装置およびその制御方法と制御プログラム
CN112215964A (zh) 基于ar的场景导览方法和设备
KR20190124436A (ko) 영상 기반 건물 검색 방법 및 장치
CN103955713B (zh) 一种图标识别方法和装置
EP2458559A1 (en) Marker judgment device, marker judgment detection system, marker judgment detection device, marker, marker judgment method, and program therefor
CN113395583A (zh) 水印检测方法、装置、计算机设备及存储介质
WO2014061222A1 (ja) 情報処理装置、情報処理方法および情報処理用プログラム
Mishra et al. Detection of clones in digital images
WO2014061221A1 (ja) 画像部分領域抽出装置、画像部分領域抽出方法および画像部分領域抽出用プログラム
JP6131859B2 (ja) 情報処理システム、情報処理方法、情報処理装置およびその制御方法と制御プログラム、通信端末およびその制御方法と制御プログラム
CN103970809A (zh) 标记放置支持设备和标记放置支持方法
KR101625751B1 (ko) 바운더리 코드를 포함하는 ar 마커 장치, 이를 이용한 ar 제공 시스템 및 방법
JP6041156B2 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
WO2015159417A1 (ja) 撮影映像による文書検索システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12857582

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013549287

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14365955

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 12857582

Country of ref document: EP

Kind code of ref document: A1