WO2022049691A1 - 転移学習装置、転移学習方法およびプログラム - Google Patents

転移学習装置、転移学習方法およびプログラム Download PDF

Info

Publication number
WO2022049691A1
WO2022049691A1 PCT/JP2020/033406 JP2020033406W WO2022049691A1 WO 2022049691 A1 WO2022049691 A1 WO 2022049691A1 JP 2020033406 W JP2020033406 W JP 2020033406W WO 2022049691 A1 WO2022049691 A1 WO 2022049691A1
Authority
WO
WIPO (PCT)
Prior art keywords
past
camera device
arrangement pattern
similar
pattern
Prior art date
Application number
PCT/JP2020/033406
Other languages
English (en)
French (fr)
Inventor
彦俊 中里
健二 阿部
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/033406 priority Critical patent/WO2022049691A1/ja
Priority to JP2022546792A priority patent/JP7380895B2/ja
Publication of WO2022049691A1 publication Critical patent/WO2022049691A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to a transfer learning device, a transfer learning method, and a program for transfer learning of a learning model for calculating device control values.
  • the optimum control value of the device varies depending on the arrangement position.
  • a technique has been developed in which a variable unique to the scene is inferred using two sensor information of an image and a viewpoint coordinate, and a corresponding observation image is predicted from an unknown viewpoint coordinate using a deep generative model. (See, for example, Non-Patent Document 1). By using this technology, it is possible to estimate the arrangement position of fluctuating devices.
  • the present invention has been made in view of these points, and the present invention shortens the learning time to the optimum device control value of the learning model in the arrangement after the position change when the arrangement position of the camera device changes. The challenge is to let them do it.
  • the transfer learning device is a transfer learning device that transfers and learns a learning model, and arranges pattern information in which information on a plurality of past arrangement patterns including the positions of each camera device is stored, and shooting conditions.
  • a storage unit that stores the learning model for each of the past placement patterns, which inputs the information of and outputs the device control value of each camera device, and is similar to the camera device of the new placement pattern and the image of the camera device.
  • the above-mentioned new A learning model in the selected similar past placement pattern that selects similar past placement patterns based on a predetermined similar placement pattern selection logic for selecting the past placement pattern that is generally similar to the placement pattern. Is transferred and learned from the arrangement pattern selection unit that is extracted from the storage unit and output, and the learning model in the similar past arrangement pattern that is output, and information on the shooting status of the new arrangement pattern from each camera device is obtained.
  • a device control unit that controls each camera device of the new arrangement pattern by using the learning model of the new arrangement pattern learned by transfer, which inputs and outputs the device control value of each camera device. It is characterized by being prepared.
  • the placement position of the camera device changes, it is possible to shorten the learning time to the optimum device control value of the learning model in the placement after the position change.
  • the present embodiment an embodiment for carrying out the present invention (hereinafter, referred to as "the present embodiment") will be described. First, the premise of the present invention will be described.
  • the transfer learning device 1 stores a learning model that outputs a device control value for each past arrangement pattern, and the distance difference between the past device arrangement position and the new device arrangement position ( The feature is that the information of the movement amount) is acquired, the arrangement pattern of the most similar past device is selected, and the learning model in the similar past arrangement pattern is transferred and learned as a learning model of a new arrangement pattern. do.
  • the method of calculating the distance difference (movement amount) between the two devices from the captured image of each device is not limited in the present invention, but in the present embodiment, the local feature amount is extracted from the object in the image.
  • the amount of change between images is obtained by combining the method (feature amount extraction method) with a homography matrix that can express the amount of change between images (details will be described later), and the difference in distance between devices from the amount of change between the images (details will be described later). It will be described as assuming that the "pop number") described later is acquired.
  • FIG. 1 is a block diagram showing a configuration of a transfer learning device 1 according to the present embodiment.
  • the transfer learning device 1 has information on the distance difference (number of hops) between the placement position of the past camera device 50 and the placement position of the new camera device 50 (hereinafter, referred to as "information on the distance difference between devices"). To get. Then, when arranging the devices in the new arrangement pattern, the transfer learning device 1 selects the past arrangement patterns of a plurality of devices including the devices having high image similarity, that is, the devices having a small amount of movement of the camera position. .. The transfer learning device 1 stores the learning model used in the arrangement pattern for each past arrangement pattern.
  • the transfer learning device 1 takes in the learning model of the selected past arrangement pattern as a learning model for each device of the new arrangement pattern, and learns (transfer learning). As a result, when arranging the devices with a new arrangement pattern, it is possible to shorten the learning time to the optimum device control value of the learning model.
  • the transfer learning device 1 includes a control unit 10, an input / output unit 11, and a storage unit 12.
  • the input / output unit 11 inputs / outputs information to / from another device (a plurality of camera devices 50, etc.).
  • the input / output unit 11 is composed of a communication interface for transmitting and receiving information via a communication line and an input / output interface for inputting and outputting information between an input device such as a keyboard (not shown) and an output device such as a monitor. It is composed.
  • the storage unit 12 is composed of a hard disk, a flash memory, a RAM (Random Access Memory), and the like.
  • the storage unit 12 stores the arrangement pattern information 300 and the learning model group information 410 in which the learning models 400 (400A, 400B, 400C, 7) For each arrangement pattern are stored (details will be described later).
  • this learning model group information 410 the learning model 400 is prepared for each environment called an arrangement pattern.
  • the transfer learning device 1 itself calculates the information of the distance difference between the devices, the image data 200 for each device is stored in the storage unit 12. Further, the storage unit 12 temporarily stores a program for executing each functional unit of the control unit 10 and information necessary for processing of the control unit 10.
  • the control unit 10 controls the overall processing executed by the transfer learning device 1, and includes an arrangement pattern selection unit 130 and a device control unit 140. Further, when the transfer learning device 1 itself calculates the information of the distance difference between the devices, the control unit 10 is provided with an image recognition unit 110 and a similar device extraction unit 120. In the following, it is assumed that the transfer learning device 1 includes an image recognition unit 110 and a similar device extraction unit 120. When the transfer learning device 1 does not include the image recognition unit 110 and the similar device extraction unit 120, information on the distance difference between the devices may be acquired from an external device or the like.
  • the image recognition unit 110 captures the current image 5a, which is the comparison source image, from each camera device 50 having a new arrangement pattern. Further, the image recognition unit 110 captures the past image 5b to be compared from the image data 200 of the storage unit 12. Then, the image recognition unit 110 extracts the feature amount from each image by using the feature amount extraction algorithm. Subsequently, the image recognition unit 110 matches the feature points between the current image 5a and the past image 5b. The image recognition unit 110 calculates a homography matrix from the change in the position of each matched feature point of the two images, and calculates the degree of similarity between the images from the calculated homography matrix.
  • the image recognition unit 110 includes a feature amount extraction unit 111 and a similarity calculation unit 112.
  • the feature amount extraction unit 111 acquires the current image 5a, which is a comparison source image, from each camera device 50. Further, the feature amount extraction unit 111 acquires the past image 5b taken by the plurality of camera devices 50 from the image data 200 in the storage unit 12.
  • the image data 200 stores an image (past image 5b) taken by the camera device 50 in association with each camera device 50. Further, each camera device 50 that has transmitted the current image 5a as the comparison source image is not an image taken at the position of the existing (past) camera device 50, but an image taken at the position of the new placement pattern. Is a device that sends.
  • the feature amount extraction unit 111 extracts each feature amount from the current image 5a and one or more past images 5b by using a predetermined feature amount extraction algorithm such as AKAZE (Accelerated KAZE), and a vector of each feature point. By comparing, the feature points with high vector similarity are matched. That is, the feature amount extraction unit 111 calculates the combination of feature points between the images.
  • a predetermined feature amount extraction algorithm such as AKAZE (Accelerated KAZE)
  • AKAZE Accelerated KAZE
  • the similarity calculation unit 112 calculates a homography matrix (reference numeral 100 in FIG. 2) from changes in the positions of the feature points matched between the pre-conversion image 55a and the converted image 55b shown by reference numeral 31 in FIG. do.
  • Homography refers to projecting one plane onto another using a projective transformation.
  • the homography matrix 100 changes from the image coordinates of the original image (coordinates before conversion: x, y) to the image coordinates after conversion (coordinates before conversion: x, y) when a projective transformation (enlargement / reduction, rotation, translation, etc.) is performed on a certain image.
  • Converted coordinates represented by a 3 ⁇ 3 matrix that can be projected onto x', y').
  • the post-transformation coordinates (x', y') can be expressed as the equation (1) in FIG. 2 using the pre-transformation coordinates (x, y) and the homography matrix.
  • each element of the homography matrix 100 is represented by nine parameters (h 11 , h 12 , ..., H 33 ).
  • the amount of movement in the X-axis and Y-axis directions can be estimated by paying attention to the parameters “h 13 and h 23 ” that indicate the influence that does not depend on the coordinates x and y.
  • the parameters “h 31 and h 32 ” indicating the degree of influence on the scale, the amount of change in the scale (enlargement / reduction) can be estimated. Therefore, by using each element (parameter) of the homography matrix, it is possible to estimate the amount of change in the actual camera position.
  • the similarity calculation unit 112 calculates the total error distance S described later for all the feature quantity pairs. Then, the similarity calculation unit 112 adopts the eigenvalue H of the homography matrix consisting of the four pairs having the smallest sum S of the calculated error distances.
  • the similarity calculation unit 112 performs the determination process of the eigenvalue H in the homography matrix according to the procedure shown below.
  • the coordinates before conversion are referred to as the coordinates before conversion a
  • the coordinates after conversion are referred to as the coordinates after conversion a ′.
  • the similarity calculation unit 112 uses the error distance information (the sum of the smallest error distances S) in the adopted homography matrix to calculate the number of hops for the camera device 50 having a new arrangement pattern described later. It is stored in the storage unit 12.
  • the eigenvector shown by the homography matrix is used as the distance between data, which is the amount of change in the position of the feature point, and the L2 norm using the eigenvalues in the homography matrix as an index showing the degree of similarity between the two images. Is adopted.
  • the L2 norm is an index showing the similarity (Sim) between images, and is represented by the following equation (2).
  • x i indicates an eigenvalue of the homography matrix.
  • the similarity calculation unit 112 calculates this L2 norm from the eigenvalue H of the determined homography matrix. The smaller the value of this L2 norm, the higher the similarity.
  • the graph (reference numeral 41) of FIG. 3 shows the value of the similarity (Sim) (vertical axis) between the images having the L2 norm for each past image 5b compared with the current image 5a.
  • the past image “05.jpg” has a lower L2 norm value than the other past images 5b. This shows that the current image 5a and the past image "05.jpg” have a high degree of similarity.
  • the L2 norms are as small as “0.0226” and “0.0245” in the past images “05.jpg” and “04.jpg”, respectively. It is a value. Therefore, it is shown that the two past images 5b have a high degree of similarity to the current image 5a.
  • the eigenvalues of the homography matrices of " 05.jpg " and " 04.jpg " are indicated by reference numerals H5 and reference numeral H4 in FIG.
  • a value indicating the amount of movement in the X-axis direction (h 13 component) and a value indicating the amount of movement in the Y-axis direction (h 23 component) are shown. It can be seen that the amount of movement in the X-axis direction ( h13 component: the value indicated by the symbol a) is larger than the amount of movement in the Y-axis direction ( h23 component: the value indicated by the reference numeral b). Further, it can be seen that the values indicating the amount of change in scale (enlargement / reduction) (h 31 component, h 32 component: the value indicated by the symbol c) are small values as a whole.
  • the feature amount extraction unit 111 and the similarity calculation unit 112 of the image recognition unit 110 described above are images from a plurality of camera devices 50 (current image 5a) as a new arrangement pattern composed of the plurality of camera devices 50.
  • the above-mentioned feature amount extraction process and the data-to-data distance (unique value H) and L2 norm (similarity) calculated by the homography matrix are obtained for each image acquired from each camera device 50. Perform the calculation.
  • the method for calculating the distance between data and the degree of similarity is not limited to the one using the feature amount extraction process such as AKAZE or the homography matrix.
  • a global feature quantity such as a convolutional neural network (CNN) may be utilized to acquire the feature quantity from the entire image and obtain the distance difference between the devices.
  • CNN convolutional neural network
  • the similar device extraction unit 120 is an image recognition unit.
  • the L2 norm is predetermined by the 110 using the inter-data distance (proprietary value H) and the L2 norm (similarity) calculated by performing the processing described above and comparing with the past image 5b stored in the image data 200.
  • the past image 5b equal to or less than the threshold value of is extracted.
  • the similar device extraction unit 120 extracts devices having a high degree of similarity between images, that is, devices having a new arrangement pattern close to the camera device 50 and the arrangement position.
  • FIG. 5 is a diagram showing the movement amount in the X-axis direction, the movement amount in the Y-axis direction, and the value of the L2 norm (similarity: Sim) in each past image 5b compared with the current image 5a.
  • the similar device extraction unit 120 assumes that the similarity between the images is high, and the X-axis direction and Y estimated between the images. It is assumed that the amount of movement in the axial direction is proportional to the actual amount of fluctuation and is reliable data.
  • the value of the L2 norm exceeds a predetermined threshold value, the similarity between the images is low, and the appearances of the two images, the current image 5a and the past image 5b, are significantly changed as a whole, and the matching feature quantities (feature points). ) Is small, or the mapping of the feature amount itself is misaligned, so that the misalignment between the estimated fluctuation amount and the actual image is likely to occur. That is, the reliability of the amount of movement in the X-axis direction and the Y-axis direction is low.
  • the predetermined threshold value of the L2 norm is “5.000e-01”.
  • the similar device extraction unit 120 has past images 5b (5b 12 , 5b 13 , 5b 14 , 5b 15 , 5b 16 ) in which the value of the L2 norm is “5.000e-01” or less (each data is enclosed in diagonal lines in FIG. 5).
  • the past image is extracted as an image with a high degree of similarity.
  • the past image 5b showing both the station building and the train is extracted as an image having a high degree of similarity, as in the current image 5a which is the comparison source.
  • the similar device extraction unit 120 selects the camera device 50 having the smallest L2 norm value among the extracted devices for each camera device 50 having a new arrangement pattern. Then, the similar device extraction unit 120 sets the total error distance S calculated by the similarity calculation unit 112 for each of the selected camera devices 50 as a predetermined distance N (N is a distance defining two points as one pop). The decimal point is rounded up for the value divided by) and held as the number of hops (estimated distance).
  • FIG. 6 is a diagram illustrating a process of calculating the number of hops by the similar device extraction unit 120 according to the present embodiment.
  • the similar device extraction unit 120 estimates the distance of the device close to the arrangement position of the devices “A”, “B”, and “C” of the new arrangement pattern.
  • the devices "A” and “B” are indicated by the same symbol “ ⁇ ” as the same model in FIG. 6, and the device C is indicated by the symbol “ ⁇ ” as a different model.
  • Sim similarity
  • a predetermined threshold value Sim ⁇ Th
  • the device “P1” selected as the minimum value is extracted.
  • the device "P3” whose Sim is equal to or less than a predetermined threshold value (Th) (Sim ⁇ Th) and is selected as the minimum value thereof is extracted.
  • the device “P2” is not extracted because Sim exceeds a predetermined threshold value (Th).
  • the device “P4” whose Sim is equal to or less than a predetermined threshold value (Th) (Sim ⁇ Th) and is selected as the minimum value thereof is extracted.
  • the device "P5" is not extracted because Sim exceeds a predetermined threshold value (Th).
  • the similar device extraction unit 120 has the L2 norm (Sim) equal to or less than a predetermined threshold value from the current image 5a of each camera device 50 in the new arrangement pattern, and the camera device 50 having the smallest L2 norm value. To extract. Then, the similar device extraction unit 120 can calculate the number of hops (estimated distance) by using the total error distance S between the camera device 50 and the extracted camera device 50 in the new arrangement pattern.
  • accurate deviation information information on the distance difference between devices
  • the present invention is not limited to the processing executed by the image recognition unit 110 and the similar device extraction unit 120 according to the present embodiment, and if information on the distance difference between the devices can be obtained, another method may be used. May be good.
  • the arrangement pattern selection unit 130 determines the distance difference between the devices with respect to the camera device 50 having a new arrangement pattern and the camera device 50 having a past arrangement pattern in which an image similar to the image of the camera device 50 is taken. Information (here, "number of hops") is acquired.
  • the arrangement pattern selection unit 130 refers to the arrangement pattern information 300 based on a predetermined similar arrangement pattern selection logic using information (the number of hops) of the distance difference between the devices with respect to the arrangement pattern of the newly arranged camera device. Select the most similar (past) placement pattern. Then, the arrangement pattern selection unit 130 extracts the learning model 400 in the selected arrangement pattern from the learning model group information 410 and outputs it to the device control unit 140.
  • the arrangement pattern information 300 which is information on the arrangement patterns of various devices in the past (location (position) and model of each camera device 50, etc.), is stored in the storage unit 12. ing. Further, the learning model 400 (400A, 400B, 400C, ...) Used in the past arrangement pattern is stored in the storage unit 12 as the learning model group information 410 in association with each past arrangement pattern.
  • the arrangement pattern selection unit 130 selects the most similar arrangement pattern from a plurality of (past) arrangement patterns stored in the arrangement pattern information 300 based on the order shown below as a predetermined similar arrangement pattern selection logic. ..
  • This predetermined similar arrangement pattern selection logic is similar to the new arrangement pattern as a whole by selecting the camera device 50 that has captured the past image with a smaller number of hops from the number of hops calculated by the similar device extraction unit 120. This is the logic for selecting the past placement pattern.
  • the arrangement pattern selection unit 130 uses the estimated distance (the number of hops) in the arrangement pattern of the newly arranged camera device 50 to select a past arrangement pattern having the most similar arrangement pattern, for example, the above-mentioned predetermined similar arrangement pattern selection. Determine based on logic. Then, the arrangement pattern selection unit 130 extracts the learning model 400 in the arrangement pattern from the learning model group information 410 and outputs it to the device control unit 140.
  • the device control unit 140 includes a learning model 400 that outputs information on the control value of the camera device 50 of each arrangement pattern when inputting information on the shooting status. Then, the device control unit 140 acquires the learning model 400 in the past arrangement pattern similar to the arrangement pattern of the newly arranged camera device 50 from the arrangement pattern selection unit 130 for the learning model 400, and learns (transfer learning). ).
  • the device control unit 140 includes a learning model acquisition unit 141, a machine learning unit 142, and a control information creation unit 143.
  • the learning model acquisition unit 141 acquires the learning model 400 in the past arrangement pattern similar to the arrangement pattern of the newly arranged camera device from the arrangement pattern selection unit 130, and causes the machine learning unit 142 to perform transfer learning.
  • This learning model 400 corresponds to the information on the shooting status for each information on the shooting status (for example, the speed of the vehicle to be shot) in the past arrangement pattern (location (position) and model of each camera device 50).
  • the control value of each camera device 50 for example, if the device is a swing camera that tracks a car, the rotation direction of the camera, the specified angle, the rotation start time, etc.
  • the machine learning unit 142 receives and learns (transfer learning) the learning model 400 in the past arrangement pattern similar to the arrangement pattern of the newly arranged camera device 50 acquired by the learning model acquisition unit 141. That is, the machine learning unit 142 does not learn the control value of the camera device 50 of the new arrangement pattern from scratch, but takes in the learning model 400 used in the similar arrangement pattern and performs transfer learning.
  • the machine learning unit 142 uses the transfer-learned learning model 400 to actually learn information (shooting status information, control values, score values, etc.) in a new arrangement pattern as learning data, thereby learning a learning model.
  • the time (convergence time) until an appropriate control value satisfying the required reward (score value) can be calculated can be shortened.
  • the control information creation unit 143 acquires information from each camera device 50 in the arrangement pattern of the newly arranged device, and creates a control value using the information learned by the learning model 400. Then, the control information creation unit 143 controls each camera device 50 by transmitting the created control information to each camera device 50.
  • the transfer learning device 1 can transfer-learn the learning model 400 of the past arrangement pattern having the most similar arrangement pattern in the learning model 400 in the arrangement pattern of the newly arranged camera device 50. .. As a result, the transfer learning device 1 can shorten the learning time to the optimum device control value of the learning model in the arrangement of the camera device 50 after the position change.
  • the arrangement pattern selection unit 130 of the transfer learning device 1 has a camera device 50 having a new arrangement pattern and a camera device 50 having an arrangement pattern in the past that has taken an image similar to the image of the camera device 50.
  • the information of the distance difference is acquired (step S10).
  • the arrangement pattern selection unit 130 acquires the information on the number of hops between the two devices calculated by the similar device extraction unit 120 as the information on the distance difference between the devices.
  • the information on the distance difference between the devices may be calculated by a method different from that of the image recognition unit 110 and the similar device extraction unit 120 described above, or may be acquired from an external device.
  • the arrangement pattern selection unit 130 has the most arrangement pattern based on a predetermined similar arrangement pattern selection logic, which is a logic in which more camera devices 50 with a small number of hops are selected in the camera device 50 in the past arrangement pattern.
  • a similar past placement pattern is selected (step S11).
  • the arrangement pattern selection unit 130 extracts the learning model 400 in the past arrangement pattern having the most similar arrangement pattern selected from the learning model group information 410, and outputs it to the device control unit 140 (step S12). ..
  • the learning model acquisition unit 141 of the device control unit 140 acquires the learning model 400 in the past arrangement pattern similar to the arrangement pattern of the newly arranged camera device from the arrangement pattern selection unit 130, and transfers learning to the machine learning unit 142. (Step S13).
  • the control information creation unit 143 acquires information from each camera device 50 in the arrangement pattern of the newly arranged device, and creates a control value using the learning model 400. Then, the control information creation unit 143 transmits the created control value to each camera device 50 to control it (step S14).
  • the machine learning unit 142 uses the transfer-learned learning model 400 to actually learn the information (shooting status information, control value, score value, etc.) in the new arrangement pattern as learning data, so that the learning model 400
  • the parameters are optimized (step S15).
  • the transfer learning device 1 can perform transfer learning of the learning model 400 of the past arrangement pattern similar to the new arrangement pattern. As a result, the learning time of the learning model 400 for calculating the control value of each camera device 50 in the new arrangement pattern can be shortened.
  • the transfer learning device 1 according to the present embodiment is realized by, for example, a computer 900 as shown in FIG.
  • FIG. 8 is a hardware configuration diagram showing an example of a computer 900 that realizes the function of the transfer learning device 1 according to the present embodiment.
  • the computer 900 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM 903, an HDD (Hard Disk Drive) 904, an input / output I / F (Interface) 905, a communication I / F 906, and a media I / F 907. Have.
  • the CPU 901 operates based on the program stored in the ROM 902 or the HDD 904, and is controlled by the control unit 10 of the transfer learning device 1 shown in FIG.
  • the ROM 902 stores a boot program executed by the CPU 901 when the computer 900 is started, a program related to the hardware of the computer 900, and the like.
  • the CPU 901 controls an input device 910 such as a mouse and a keyboard and an output device 911 such as a display via the input / output I / F 905.
  • the CPU 901 acquires data from the input device 910 and outputs the generated data to the output device 911 via the input / output I / F 905.
  • a GPU Graphics Processing Unit
  • a GPU may be used together with the CPU 901 as the processor.
  • the HDD 904 stores a program executed by the CPU 901, data used by the program, and the like.
  • the communication I / F906 receives data from another device via a communication network (for example, NW (Network) 920) and outputs the data to the CPU 901, and the communication I / F 906 transfers the data generated by the CPU 901 to another device via the communication network. Send to the device.
  • NW Network
  • the media I / F907 reads the program or data stored in the recording medium 912 and outputs the program or data to the CPU 901 via the RAM 903.
  • the CPU 901 loads the program related to the target processing from the recording medium 912 onto the RAM 903 via the media I / F 907, and executes the loaded program.
  • the recording medium 912 is an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as MO (Magneto Optical disk), a magnetic recording medium, a conductor memory tape medium, a semiconductor memory, or the like. Is.
  • the CPU 901 of the computer 900 realizes the function of the transfer learning device 1 by executing the program loaded on the RAM 903. Further, the data in the RAM 903 is stored in the HDD 904. The CPU 901 reads the program related to the target processing from the recording medium 912 and executes it. In addition, the CPU 901 may read a program related to the target processing from another device via the communication network (NW920).
  • NW920 communication network
  • the transfer learning device is a transfer learning device 1 that transfers and learns a learning model, and includes an arrangement pattern information 300 that stores information on a plurality of past arrangement patterns including the positions of each camera device 50, and an arrangement pattern information 300.
  • a storage unit 12 that stores learning models 400 for each past arrangement pattern, which inputs information on shooting conditions and outputs device control values of each camera device 50, a camera device 50 with a new arrangement pattern, and the like.
  • the camera device 50 that acquires the information of the distance difference between the devices and the camera device 50 of the past arrangement pattern that captured the image similar to the image of the camera device 50, and captured the past image that the distance difference between the devices is smaller.
  • a similar past placement pattern is selected and the selected similar past placement pattern is selected based on a given similar placement pattern selection logic for selecting a past placement pattern that is generally similar to the new placement pattern.
  • the placement pattern selection unit 130 that extracts and outputs the learning model 400 in the placement pattern from the storage unit 12 and the learning model 400 in the output similar past placement pattern are transferred and learned, and each camera device of the new placement pattern.
  • each camera device 50 with a new placement pattern is generated. It is characterized by including a device control unit 140 for controlling.
  • the transfer learning device 1 includes the learning model 400 for each past arrangement pattern in the storage unit 12. Then, the transfer learning device 1 acquires information on the distance difference between the camera device 50 having a new arrangement pattern and the camera device 50 having an arrangement pattern in the past that has taken an image similar to the image of the camera device 50. .. The transfer learning device 1 selects a similar past placement pattern based on a predetermined similar placement pattern selection logic that selects a camera device 50 that has captured a past image with a smaller distance difference between the devices. Then, the transfer learning device 1 can output the learning model 400 in the similar past arrangement pattern from the storage unit 12 and perform transfer learning as the learning model 400 of the new arrangement pattern. As a result, the transfer learning device 1 can transfer-learn a learning model of a similar past arrangement pattern when arranging the camera device 50 with a new arrangement pattern, so that the learning time to the optimum device control value can be obtained. Can be shortened.
  • Transfer learning device 10
  • Control unit 11 Input / output unit 12
  • Storage unit 50 Camera device 100
  • Homography matrix 110
  • Image recognition unit 111
  • Feature quantity extraction unit 112
  • Similarity calculation unit 120
  • Similarity device extraction unit 130
  • Arrangement pattern selection unit 140
  • Device control unit 141
  • Learning model acquisition unit 142
  • Machine learning unit 143
  • Control information creation unit 200
  • Image data 300
  • Arrangement pattern information 400

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

転移学習装置(1)は、過去の配置パターンの配置パターン情報(300)および過去の配置パターン毎の学習モデル(400)を記憶する記憶部(12)と、デバイス間の距離差の情報を取得し、所定の類似配置パターン選択ロジックに基づき、類似する過去の配置パターンを選択し、その類似する過去の配置パターンの学習モデル(400)を出力する配置パターン選択部(130)と、出力された類似する過去の配置パターンにおける学習モデル(400)を転移学習し、新たな配置パターンの各カメラデバイス(50)からの撮影状況の情報を入力して、当該各カメラデバイス(50)のデバイス制御値を出力するデバイス制御部(140)とを備える。

Description

転移学習装置、転移学習方法およびプログラム
 本発明は、デバイス制御値を算出する学習モデルを転移学習する、転移学習装置、転移学習方法およびプログラムに関する。
 例えば、自動車等の移動対象を複数のカメラ等のデバイスで捕捉して撮影する場合において、そのデバイス(カメラデバイス)の最適な制御値は、その配置位置によって変動する。従来、画像と視点座標という2つのセンサ情報を用いて、そのシーンに固有の変数を推論し、未知の視点座標から対応する観測画像を、深層生成モデルを用いて予測する技術が開発されている(例えば、非特許文献1参照)。この技術を利用することで、変動するデバイスの配置位置を推定することが可能である。
谷口尚平、他2名、「メタ学習としてのGenerative Query Network」、一般社団法人人工知能学会、2019年度人工知能学会全国大会(第33回)、人工知能学会全国大会論文集 2Q5-J-2-03、 2019年6月
 しかしながら、デバイスの位置が頻繁に移動するような場合では、膨大な状況数を必要とし、新しい状況が発生するごとに、デバイス制御値を学習し直す必要があった。このため、最適値へ収束するまでの準備時間の増大を招き、サービス品質維持時間の低下に結びつくものであった。
 このような点に鑑みて本発明がなされたのであり、本発明は、カメラデバイスの配置位置が変化した場合に、位置変化後の配置における学習モデルの最適なデバイス制御値への学習時間を短縮させることを課題とする。
 本発明に係る転移学習装置は、学習モデルを転移学習する転移学習装置であって、各カメラデバイスの位置を含む、複数の過去の配置パターンの情報が格納される配置パターン情報、および、撮影状況の情報を入力して、各カメラデバイスのデバイス制御値を出力する、前記過去の配置パターン毎の学習モデル、を記憶する記憶部と、新たな配置パターンのカメラデバイスとそのカメラデバイスの画像に類似する画像を撮影した過去の配置パターンのカメラデバイスとのデバイス間の距離差の情報を取得し、よりデバイス間の距離差が少ない過去の画像を撮影したカメラデバイスを選択することにより、前記新たな配置パターンに全体として類似する前記過去の配置パターンを選択するための所定の類似配置パターン選択ロジックに基づき、類似する前記過去の配置パターンを選択し、選択した類似する前記過去の配置パターンにおける学習モデルを、前記記憶部から抽出して出力する配置パターン選択部と、出力された類似する前記過去の配置パターンにおける学習モデルを転移学習し、新たな配置パターンの各カメラデバイスからの撮影状況の情報を入力して、当該各カメラデバイスの前記デバイス制御値を出力する、前記転移学習した新たな配置パターンの学習モデルを用いて、前記新たな配置パターンの各カメラデバイスを制御するデバイス制御部と、を備えることを特徴とする。
 本発明によれば、カメラデバイスの配置位置が変化した場合に、位置変化後の配置における学習モデルの最適なデバイス制御値への学習時間を短縮させることができる。
本実施形態に係る転移学習装置の構成を示すブロック図である。 ホモグラフィ行列の内容を説明する図である。 現在画像と比較した各過去画像における、L2ノルム(類似度:Sim)の値を示す図である。 本実施形態に係るL2ノルムとホモグラフィ行列における固有値の例を示す図である。 現在画像と比較した各過去画像における、X軸方向の移動量と、Y軸方向の移動量と、L2ノルム(類似度:Sim)の値を示す図である。 本実施形態に係る類似デバイス抽出部による、ホップ数の算出処理を説明する図である。 本実施形態に係る転移学習装置が実行する転移学習処理の流れを示すフローチャートである。 本実施形態に係る転移学習装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 次に、本発明を実施するための形態(以下、「本実施形態」と称する。)について説明する。まず、本発明の前提について説明する。
<本発明の前提>
 本発明に係る転移学習装置1は、過去の配置パターン毎に、デバイス制御値を出力する学習モデルを記憶しておき、過去のデバイスの配置位置と、新たなデイバスの配置位置との距離差(移動量)の情報を取得して、最も類似する過去のデバイスの配置パターンを選択し、その類似する過去の配置パターンにおける学習モデルを、新たな配置パターンの学習モデルとして転移学習することを特徴とする。
 2つのデバイスの距離差(移動量)を各デバイスの撮影画像から算出する手法は、本発明において限定するものではないが、本実施形態においては、画像内の物体から局所的な特徴量を抽出する手法(特徴量抽出手法)に、画像間の変化量を表現できるホモグラフィ行列(詳細は後記)を組み合わせて画像間の変化量を求め、その画像間の変化量からデバイス間の距離差(後記する「ポップ数」)を取得するものとして説明する。
<本実施形態>
 図1は、本実施形態に係る転移学習装置1の構成を示すブロック図である。
 転移学習装置1は、過去のカメラデバイス50の配置位置と、新たなカメラデバイス50の配置位置との距離差(ホップ数)の情報(以下、「デバイス間の距離差の情報」と称する。)を取得する。そして、転移学習装置1は、新たな配置パターンにおいてデバイスを配置する際に、画像の類似度の高い、つまり、カメラ位置の移動量の少ないデバイスを含む複数のデバイスの過去の配置パターンを選択する。転移学習装置1は、過去の配置パターン毎に、その配置パターンにおいて用いる学習モデルを記憶している。そして、転移学習装置1は、選択した過去の配置パターンの学習モデルを、新たな配置パターンの各デバイスに関する学習モデルとして取り込み、学習(転移学習)する。これにより、新たな配置パターンでデバイスを配置する際に、学習モデルの最適なデバイス制御値への学習時間を短縮させることができる。
 この転移学習装置1は、制御部10と、入出力部11と、記憶部12とを備える。
 入出力部11は、他の装置(複数のカメラデバイス50等)との間の情報について入出力を行う。この入出力部11は、通信回線を介して情報の送受信を行う通信インタフェースと、不図示のキーボード等の入力装置やモニタ等の出力装置との間で情報の入出力を行う入出力インタフェースとから構成される。
 記憶部12は、ハードディスクやフラッシュメモリ、RAM(Random Access Memory)等により構成される。
 この記憶部12には、配置パターン情報300と、配置パターン毎の学習モデル400(400A,400B,400C,…)が格納される学習モデル群情報410とが記憶される(詳細は後記)。この学習モデル群情報410において、学習モデル400は、配置パターンという環境毎に用意される。また、転移学習装置1自身がデバイス間の距離差の情報を算出する場合には、デバイス毎の画像データ200が、記憶部12に記憶される。
 さらに、記憶部12には、制御部10の各機能部を実行させるためのプログラムや、制御部10の処理に必要な情報が一時的に記憶される。
 制御部10は、転移学習装置1が実行する処理の全般を司り、配置パターン選択部130と、デバイス制御部140とを含んで構成される。また、転移学習装置1自身がデバイス間の距離差の情報を算出する場合には、画像認識部110と、類似デバイス抽出部120とを制御部10に備える。以下においては、転移学習装置1が、画像認識部110および類似デバイス抽出部120を備えるものとして説明する。
 なお、転移学習装置1が、画像認識部110および類似デバイス抽出部120を備えない場合は、外部装置等からデバイス間の距離差の情報を取得するようにしてもよい。
 画像認識部110は、新たな配置パターンの各カメラデバイス50から、比較元画像である現在画像5aを取り込む。また、画像認識部110は、記憶部12の画像データ200から、比較対象である過去画像5bとを取り込む。そして、画像認識部110は、特徴量抽出アルゴリズムを用いて、それぞれの画像から特徴量を抽出する。続いて、画像認識部110は、現在画像5aと過去画像5bとの間で特徴点のマッチングを行う。画像認識部110は、2つの画像のマッチングされた各特徴点の位置の変化からホモグラフィ行列を算出し、算出したホモグラフィ行列から画像間の類似度を算出する。
 この画像認識部110は、特徴量抽出部111と類似度算出部112とを含んで構成される。
 特徴量抽出部111は、各カメラデバイス50から比較元画像である現在画像5aを取得する。また、特徴量抽出部111は、記憶部12内の画像データ200から、複数のカメラデバイス50により撮影された過去画像5bを取得する。なお、画像データ200には、各カメラデバイス50に対応付けて、そのカメラデバイス50が撮影した画像(過去画像5b)が記憶される。
 また、比較元画像となる現在画像5aを送信してきた各カメラデバイス50は、既存の(過去の)カメラデバイス50の配置位置において撮影された画像ではなく、新たな配置パターンの位置で撮影した画像を送信するデバイスである。
 特徴量抽出部111は、例えばAKAZE(Accelerated KAZE)等の所定の特徴量抽出アルゴリズムを用いて、現在画像5aおよび1つ以上の過去画像5bからそれぞれの特徴量を抽出し、各特徴点のベクトルを比較することにより、ベクトルの類似度が高い特徴点をマッチングする。つまり、特徴量抽出部111は、画像間の特徴点の組合せを算出する。
 類似度算出部112は、図2の符号31に示す、変換前画像55aと、変換後画像55bとにおいてマッチングされた各特徴点の位置の変化からホモグラフィ行列(図2の符号100)を算出する。ホモグラフィとは、ある平面を、射影変換を用いて別の平面に射影することをいう。
 ホモグラフィ行列100は、ある画像において、射影変換(拡大・縮小、回転、平行移動など)が行われた場合、元画像の画像座標(変換前座標:x,y)から変換後の画像座標(変換後座標:x′,y′)に射影することができる3×3の行列で表される。
 変換後座標(x′,y′)は、変換前座標(x,y)とホモグラフィ行列とを用いて図2の式(1)のように表すことができる。
 ホモグラフィ変換では、図2の符号32に示すように、ホモグラフィ行列100の各要素を、9つのパラメータ(h11,h12,…,h33)で表現する。
 ここで、例えば、座標x,yに依存しない影響を示すパラメータ「h13,h23」に着目すればX軸・Y軸方向の移動量を推定することができる。また、スケールに対する影響度を示すパラメータ「h31,h32」に着目すれば、スケール(拡大・縮小)の変化量を推定することができる。よって、ホモグラフィ行列の各要素(パラメータ)を利用することにより、実際のカメラ位置の変化量を推定することが可能になる。
 ホモグラフィ行列における固有値Hを確定するためには、4組以上の特徴量のペア(所定数の特徴点)が必要となる。本実施形態に係る類似度算出部112は、4組以上の特徴量のペアが存在する場合には、そのすべての特徴量のペアに関して、後記する誤差距離の総和Sを算出する。そして、類似度算出部112は、算出した誤差距離の総和Sが最も小さい4組のペアによるホモグラフィ行列の固有値Hを採用する。
≪ホモグラフィ行列における固有値Hの確定処理≫
 類似度算出部112は、ホモグラフィ行列における固有値Hの確定処理を以下に示す手順で行う。
 ここで、変換前の座標を変換前座標aとし、変換後の座標を変換後座標a′とする。また、n組(ここでは、例として10組)の特徴量のペア(以下、「特徴量ペア」と称する。)があるとする。
(手順1)n組(10組)の特徴量ペアのうち、ランダムの4組の特徴量ペア(所定数の特徴点)を選び、ホモグラフィ行列を算出する。
(手順2)残り6組の特徴量ペアのそれぞれについて、(手順1)で算出されたホモグラフィ行列と座標(Ha)とを使って算出した値と実際の座標(Ha′)との差√(x+y)(誤差距離:変換後座標を(0,0)としたときの座標平面上の2点間の距離であり、特徴点間の座標のずれを示す。)を残り6組の特徴量ペアそれぞれについて求め、その誤差距離の総和Sを算出する。
(手順3)(手順2)で算出された誤差距離の総和Sを、全通りの特徴量ペア(ここでは、10通り)計算する。
(手順4)誤差距離の総和Sが最も小さい特徴量ペア(4組の特徴量ペア)で算出されたホモグラフィ行列を採用し、固有値Hとして確定する。
 なお、類似度算出部112は、採用したホモグラフィ行列における誤差距離の情報(最も小さい誤差距離の総和S)を、後記する新たな配置パターンのカメラデバイス50に関するホップ数の算出に利用するため、記憶部12に記憶しておく。
 本実施形態では、特徴点の位置の変化量であるデータ間距離としてホモグラフィ行列で示される固有ベクトルを利用し、2画像間の類似度を示す指標として、ホモグラフィ行列における固有値を用いたL2ノルムを採用する。
 L2ノルムは、画像間の類似度(Sim)を示す指標であり、以下の式(2)で示される。
Figure JPOXMLDOC01-appb-M000001
 
 ここで、xは、ホモグラフィ行列の固有値を示す。
 類似度算出部112は、確定したホモグラフィ行列の固有値HからこのL2ノルムを計算する。このL2ノルムは、値が小さいほど類似度が高いものとなる。
 図3のグラフ(符号41)は、現在画像5aと比較した各過去画像5bについての、L2ノルムである画像間の類似度(Sim)(縦軸)の値を示している。
 図3では、過去画像「05.jpg」は、他の過去画像5bに比べL2ノルムの値が低くなっている。これにより、現在画像5aと過去画像「05.jpg」の類似度が高いことが示される。
 また、図4に示す各過去画像5bについてのL2ノルムを示すグラフ(符号41)では、過去画像「05.jpg」および「04.jpg」において、L2ノルムがそれぞれ「0.0226」「0.0245」と小さい値となっている。
 よって、この2つの過去画像5bは、現在画像5aとの類似度が高いことが示される。このとき、「05.jpg」および「04.jpg」のホモグラフィ行列の固有値は、図4の符号Hと符号Hで示される。
 そして、このホモグラフィ行列の固有値H,H4から、例えば、X軸方向の移動量を示す値(h13成分)、Y軸方向の移動量を示す値(h23成分)が示される。なお、X軸方向の移動量(h13成分:符号aで示す値)は、Y軸方向の移動量(h23成分:符号bで示す値)よりも大きな値であることがわかる。また、スケール(拡大・縮小)の変化量を示す値(h31成分,h32成分:符号cで示す値)が全体として小さな値であることがわかる。
 以上説明した、画像認識部110の特徴量抽出部111および類似度算出部112は、複数のカメラデバイス50で構成される新規の配置パターンとして、複数のカメラデバイス50からの画像(現在画像5a)を取得した場合には、各カメラデバイス50から取得したそれぞれの画像に対して、上記した特徴量抽出処理と、ホモグラフィ行列の算出によるデータ間距離(固有値H)およびL2ノルム(類似度)の算出を実行する。
 なお、データ間距離や類似度の算出手法は、AKAZE等の特徴量抽出処理やホモグラフィ行列を用いたものに限定されない。ホモグラフィ行列に代わる手法として、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)のような大域特徴量を活用して画像全体から特徴量を取得し、デバイス間の距離差を求めるようにしてもよい。
 図1に戻り、類似デバイス抽出部120の処理について説明する。
 類似デバイス抽出部120は、新規に配置されたパターン(以下、「新規配置パターン」と称する。)のカメラデバイス群の画像(各現在画像5a)を転移学習装置1が取得した場合、画像認識部110が、上記において説明した処理を行い、画像データ200に記憶された過去画像5bと比較することにより算出したデータ間距離(固有値H)およびL2ノルム(類似度)を用いて、L2ノルムが所定の閾値以下の過去画像5bを抽出する。これにより、類似デバイス抽出部120は、画像間の類似度が高い、つまり、新規配置パターンのカメラデバイス50と配置位置の近いデバイスを抽出する。
 図5は、現在画像5aと比較した各過去画像5bにおける、X軸方向の移動量と、Y軸方向の移動量と、L2ノルム(類似度:Sim)の値を示す図である。類似デバイス抽出部120は、画像間の類似度(Sim)を示すL2ノルムの値が所定の閾値以下の場合に、画像間の類似度が高いとして、画像同士で推定されたX軸方向とY軸方向の移動量が、実際の変動量に比例し信頼できるデータであるとする。
 一方、L2ノルムの値が所定の閾値を超える場合、画像間の類似度が低く、現在画像5aと過去画像5bの2つの画像が全体として様相が大きく変わっており、一致する特徴量(特徴点)が少なかったり、特徴量自身のマッピングがずれていることが起因して、推定される変動量と実際の画像との間にずれが発生しやすいものとなる。つまり、X軸方向、Y軸方向の移動量の信頼度は低いものとなる。
 図5に示す例では、例えば、L2ノルムの所定の閾値が「5.000e-01」であるとする。類似デバイス抽出部120は、L2ノルムの値が「5.000e-01」以下である過去画像5b(5b12,5b13,5b14,5b15,5b16)(図5において各データを斜線で囲んだ過去画像)を類似度の高い画像として抽出する。図5に示す例では、比較元となる現在画像5aと同様に、駅舎と列車の両方が映っている過去画像5bが類似度の高い画像として抽出される。
 ここで、類似デバイス抽出部120は、新規配置パターンのカメラデバイス50毎に、抽出したデバイスの中で、L2ノルムの値が最小のカメラデバイス50を選択する。そして、類似デバイス抽出部120は、選択したカメラデバイス50それぞれについて、類似度算出部112が算出した誤差距離の総和Sを、所定の距離N(Nは、2点間を1ポップとして規定する距離)で割った値について小数点を繰り上げ(Roundup)し、ホップ数(推定距離)として保持する。
 なお、新規配置パターンに類似するカメラデバイス50を選択する前提として、各カメラデバイス50におけるカメラズーム倍率は常に一定であり不変であるとする。また、各カメラデバイス50の絶対的な位置情報は、他の手段からは得られないものとする。
 図6は、本実施形態に係る類似デバイス抽出部120による、ホップ数の算出処理を説明する図である。ここでは、類似デバイス抽出部120が、新規配置パターンのデバイス「A」「B」「C」の配置位置に近いデバイスの距離を推定する場合で説明する。なお、デバイス「A」「B」は、図6において同一機種として同じ記号「〇」で示し、デバイスCは、それとは異なる機種として記号「△」で示している。
 デバイス「A」の近傍では、L2ノルムの値であるSim(類似度)が所定の閾値(Th)以下(Sim<Th)であり、そのうちの最小値として選択されたデバイス「P1」が抽出される。そして、デバイス「A」は、デバイス「P1」の近傍の1ホップ以内の距離にあると推定される(H(A,P1)=1)。
 同様に、デバイス「B」の近傍には、Simが所定の閾値(Th)以下(Sim<Th)であり、そのうちの最小値として選択されたデバイス「P3」が抽出される。なお、デバイス「P2」は、Simが所定の閾値(Th)を超えているので抽出されない。そして、デバイス「B」は、デバイスP3の近傍の3ホップ以内の距離にあると推定される(H(A,P1)=3)。
 同様に、デバイスCの近傍には、Simが所定の閾値(Th)以下(Sim<Th)であり、そのうちの最小値として選択されたデバイス「P4」が抽出される。なお、デバイス「P5」は、Simが所定の閾値(Th)を超えているので抽出されない。そして、デバイス「C」は、デバイス「P4」の近傍の2ホップ以内の距離にあると推定される(H(A,P1)=2)。
 このようにして、類似デバイス抽出部120は、新規配置パターンにおける各カメラデバイス50の現在画像5aから、L2ノルム(Sim)が所定の閾値以下であり、そのL2ノルムの値が最小のカメラデバイス50を抽出する。そして、類似デバイス抽出部120は、新規配置パターンおけるカメラデバイス50と抽出したカメラデバイス50との間の誤差距離の総和Sを用いて、ホップ数(推定距離)を算出することができる。
 以上の画像認識部110および類似デバイス抽出部120の処理により、デバイス間の実際の距離差に比例した正確なずれの情報(デバイス間の距離差の情報)をホップ数として算出することができる。なお、本発明は、本実施形態に係る画像認識部110および類似デバイス抽出部120が実行する処理に限定されず、デバイス間の距離差の情報が取得できるのであれば、他の手法を用いてもよい。
 図1に戻り、配置パターン選択部130は、新たな配置パターンのカメラデバイス50とそのカメラデバイス50の画像に類似する画像を撮影した過去の配置パターンのカメラデバイス50とについて、デバイス間の距離差の情報(ここでは、「ホップ数」)を取得する。配置パターン選択部130は、新たに配置するカメラデバイスの配置パターンに対し、デバイス間の距離差の情報(ホップ数)を利用した所定の類似配置パターン選択ロジックに基づき、配置パターン情報300を参照して最も類似する(過去の)配置パターンを選択する。そして、配置パターン選択部130は、選択した配置パターンにおける学習モデル400を、学習モデル群情報410の中から抽出し、デバイス制御部140に出力する。
 配置パターン選択部130の処理の前提として、記憶部12内に、過去における様々なデバイスの配置パターン(各カメラデバイス50のロケーション(位置)および機種等)の情報である配置パターン情報300を記憶している。また、その過去の配置パターンにおいて用いる学習モデル400(400A,400B,400C,…)を、過去の各配置パターンに対応付けて学習モデル群情報410として記憶部12に記憶している。
 配置パターン選択部130は、所定の類似配置パターン選択ロジックとして、以下に示す順位に基づき、配置パターン情報300に記憶された(過去の)複数の配置パターンの中から最も類似する配置パターンを選択する。この所定の類似配置パターン選択ロジックは、類似デバイス抽出部120が算出したホップ数のうち、よりホップ数の少ない過去画像を撮影したカメラデバイス50を選ぶことにより、新規の配置パターンに全体として類似する過去の配置パターンを選択するためのロジックである。
≪類似配置パターン選択ロジック≫
(順位1)同一機種のデバイスが所定の第1ホップ数X(例えば、ホップ数「1」)以内に配置されているデバイス数がより多い。
(順位2)所定の第1ホップ数X以内に該当機種のデバイスが存在しないが、所定の第2ホップ数Y(X<Y)(例えば、ホップ数「3」)以内に同一機種のデバイスが位置しており、配置パターンの各デバイスそれぞれのホップ数の合計である総ホップ数がより小さい。
(順位3)(順位2)において、総ホップ数が等しい場合、各デバイスのホップ数の標準偏差がより小さい。
 配置パターン選択部130は、新たに配置するカメラデバイス50の配置パターンにおける推定距離(ホップ数)を利用して、最も配置パターンが類似する過去の配置パターンを、例えば上記した所定の類似配置パターン選択ロジックに基づき決定する。そして、配置パターン選択部130は、その配置パターンにおける学習モデル400を、学習モデル群情報410の中から抽出し、デバイス制御部140に出力する。
 図1に戻り、デバイス制御部140は、撮影状況の情報を入力すると各配置パターンのカメラデバイス50の制御値の情報を出力する学習モデル400を備える。そして、デバイス制御部140は、この学習モデル400について、新たに配置するカメラデバイス50の配置パターンに類似する過去の配置パターンにおける学習モデル400を、配置パターン選択部130から取得し、学習(転移学習)させる。
 このデバイス制御部140は、学習モデル取得部141と、機械学習部142と、制御情報作成部143とを備えている。
 学習モデル取得部141は、配置パターン選択部130から、新たに配置するカメラデバイスの配置パターンに類似する過去の配置パターンにおける学習モデル400を取得し、機械学習部142に転移学習させる。
 この学習モデル400は、過去の配置パターン(各カメラデバイス50のロケーション(位置)および機種等)において、撮影状況の情報(例えば、撮影対象の自動車の速度)ごとに、その撮影状況の情報に対応した各カメラデバイス50の制御値(例えば、デバイスが自動車を追尾する首振りカメラであれば、カメラの回転方向、指定角度、回転開始時刻など)と、当該制御値で配置パターンに属する各カメラデバイス50を制御した場合のスコア値とを学習データとして、パラメータを最適化したデータである。
 機械学習部142は、学習モデル取得部141が取得した、新たに配置するカメラデバイス50の配置パターンに類似する過去の配置パターンにおける学習モデル400を受け取り、学習(転移学習)する。つまり、機械学習部142は、新たな配置パターンのカメラデバイス50の制御値について、一から学習するのではなく、類似した配置パターンにおいて利用していた学習モデル400を取り込んで転移学習する。
 この機械学習部142は、転移学習した学習モデル400を用いて、実際に新たな配置パターンにおける情報(撮影状況の情報、制御値、スコア値等)を学習データとして、学習することにより、学習モデル400のパラメータを最適化していく。この際、類似した配置パターンの学習モデル400を転移学習しているので、要求された報酬(スコア値)を満たす適切な制御値を算出するまでの時間(収束時間)を短縮することができる。
 制御情報作成部143は、実際に新たに配置されたデバイスの配置パターンにおける各カメラデバイス50からの情報を取得し、学習モデル400に学習させた情報を用いて制御値を作成する。そして、制御情報作成部143は、作成した制御情報を各カメラデバイス50に送信することにより、各カメラデバイス50を制御する。
 このようにすることにより、転移学習装置1は、新たに配置するカメラデバイス50の配置パターンにおける学習モデル400において、最も配置パターンが類似する過去の配置パターンの学習モデル400を転移学習させることができる。これにより、転移学習装置1は、カメラデバイス50の位置変化後の配置における学習モデルの最適なデバイス制御値への学習時間を短縮させることができる。
<処理の流れ>
 次に、図7を参照して、本実施形態に係る転移学習装置1が実行する転移学習処理の流れについて説明する。
 まず、転移学習装置1の配置パターン選択部130は、新たな配置パターンのカメラデバイス50とそのカメラデバイス50の画像に類似する画像を撮影した過去の配置パターンのカメラデバイス50とについて、デバイス間の距離差の情報を取得する(ステップS10)。
 ここでは、配置パターン選択部130は、類似デバイス抽出部120が算出した2つのデバイス間のホップ数の情報を、デバイス間の距離差の情報として取得するものとする。なお、本発明において、デバイス間の距離差の情報を、上記した画像認識部110および類似デバイス抽出部120と異なる手法により算出してもよいし、外部装置から取得するようにしてもよい。
 続いて、配置パターン選択部130は、過去の配置パターンにおけるカメラデバイス50において、ホップ数の少ないカメラデバイス50がより多く選択されるロジックである所定の類似配置パターン選択ロジックに基づき、最も配置パターンが類似する過去の配置パターンを選択する(ステップS11)。
 次に、配置パターン選択部130は、選択した最も配置パターンが類似する過去の配置パターンにおける学習モデル400を、学習モデル群情報410の中から抽出し、デバイス制御部140に出力する(ステップS12)。
 デバイス制御部140の学習モデル取得部141は、配置パターン選択部130から、新たに配置するカメラデバイスの配置パターンに類似する過去の配置パターンにおける学習モデル400を取得し、機械学習部142に転移学習させる(ステップS13)。
 制御情報作成部143は、実際に新たに配置されたデバイスの配置パターンにおける各カメラデバイス50からの情報を取得し、学習モデル400を用いて制御値を作成する。そして、制御情報作成部143は、作成した制御値を各カメラデバイス50に送信して制御する(ステップS14)。
 機械学習部142は、転移学習した学習モデル400を用いて、実際に新たな配置パターンにおける情報(撮影状況の情報、制御値、スコア値等)を学習データとして学習することにより、学習モデル400のパラメータを最適化する(ステップS15)。
 このようにすることで、転移学習装置1は、新規配置パターンに類似する過去の配置パターンの学習モデル400を、転移学習させることができる。これにより、新規配置パターンにおける各カメラデバイス50の制御値を算出するための学習モデル400の学習時間を短縮することができる。
<ハードウェア構成>
 本実施形態に係る転移学習装置1は、例えば図8に示すようなコンピュータ900によって実現される。
 図8は、本実施形態に係る転移学習装置1の機能を実現するコンピュータ900の一例を示すハードウェア構成図である。コンピュータ900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM903、HDD(Hard Disk Drive)904、入出力I/F(Interface)905、通信I/F906およびメディアI/F907を有する。
 CPU901は、ROM902またはHDD904に記憶されたプログラムに基づき作動し、図1に示す転移学習装置1の制御部10による制御を行う。ROM902は、コンピュータ900の起動時にCPU901により実行されるブートプログラムや、コンピュータ900のハードウェアに係るプログラム等を記憶する。
 CPU901は、入出力I/F905を介して、マウスやキーボード等の入力装置910、および、ディスプレイ等の出力装置911を制御する。CPU901は、入出力I/F905を介して、入力装置910からデータを取得するともに、生成したデータを出力装置911へ出力する。なお、プロセッサとしてCPU901とともに、GPU(Graphics Processing Unit)等を用いても良い。
 HDD904は、CPU901により実行されるプログラムおよび当該プログラムによって使用されるデータ等を記憶する。通信I/F906は、通信網(例えば、NW(Network)920)を介して他の装置からデータを受信してCPU901へ出力し、また、CPU901が生成したデータを、通信網を介して他の装置へ送信する。
 メディアI/F907は、記録媒体912に格納されたプログラムまたはデータを読み取り、RAM903を介してCPU901へ出力する。CPU901は、目的の処理に係るプログラムを、メディアI/F907を介して記録媒体912からRAM903上にロードし、ロードしたプログラムを実行する。記録媒体912は、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto Optical disk)等の光磁気記録媒体、磁気記録媒体、導体メモリテープ媒体又は半導体メモリ等である。
 例えば、コンピュータ900が本実施形態に係る転移学習装置1として機能する場合、コンピュータ900のCPU901は、RAM903上にロードされたプログラムを実行することにより転移学習装置1の機能を実現する。また、HDD904には、RAM903内のデータが記憶される。CPU901は、目的の処理に係るプログラムを記録媒体912から読み取って実行する。この他、CPU901は、他の装置から通信網(NW920)を介して目的の処理に係るプログラムを読み込んでもよい。
<効果>
 以下、本発明に係る転移学習装置1等の効果について説明する。
 本発明に係る転移学習装置は、学習モデルを転移学習する転移学習装置1であって、各カメラデバイス50の位置を含む、複数の過去の配置パターンの情報が格納される配置パターン情報300、および、撮影状況の情報を入力して、各カメラデバイス50のデバイス制御値を出力する、過去の配置パターン毎の学習モデル400、を記憶する記憶部12と、新たな配置パターンのカメラデバイス50とそのカメラデバイス50の画像に類似する画像を撮影した過去の配置パターンのカメラデバイス50とのデバイス間の距離差の情報を取得し、よりデバイス間の距離差が少ない過去の画像を撮影したカメラデバイス50を選択することにより、新たな配置パターンに全体として類似する過去の配置パターンを選択するための所定の類似配置パターン選択ロジックに基づき、類似する過去の配置パターンを選択し、選択した類似する過去の配置パターンにおける学習モデル400を、記憶部12から抽出して出力する配置パターン選択部130と、出力された類似する過去の配置パターンにおける学習モデル400を転移学習し、新たな配置パターンの各カメラデバイス50からの撮影状況の情報を入力して、当該各カメラデバイス50のデバイス制御値を出力する、転移学習した新たな配置パターンの学習モデル400を用いて、新たな配置パターンの各カメラデバイス50を制御するデバイス制御部140と、を備えることを特徴とする。
 このように、転移学習装置1は、過去の配置パターン毎の学習モデル400を記憶部12に備える。そして、転移学習装置1は、新たな配置パターンのカメラデバイス50とそのカメラデバイス50の画像に類似する画像を撮影した過去の配置パターンのカメラデバイス50とのデバイス間の距離差の情報を取得する。転移学習装置1は、よりデバイス間の距離差が少ない過去の画像を撮影したカメラデバイス50を選択する、所定の類似配置パターン選択ロジックに基づき、類似する過去の配置パターンを選択する。そして、転移学習装置1は、その類似する過去の配置パターンにおける学習モデル400を記憶部12から出力して、新たな配置パターンの学習モデル400として転移学習することができる。
 これにより、転移学習装置1は、新たな配置パターンでカメラデバイス50を配置する際に、類似する過去の配置パターンの学習モデルを転移学習することができるため、最適なデバイス制御値への学習時間を短縮させることができる。
 なお、本発明は、以上説明した実施形態に限定されるものではなく、多くの変形が本発明の技術的思想内で当分野において通常の知識を有する者により可能である。
 1   転移学習装置
 10  制御部
 11  入出力部
 12  記憶部
 50  カメラデバイス
 100 ホモグラフィ行列
 110 画像認識部
 111 特徴量抽出部
 112 類似度算出部
 120 類似デバイス抽出部
 130 配置パターン選択部
 140 デバイス制御部
 141 学習モデル取得部
 142 機械学習部
 143 制御情報作成部
 200 画像データ
 300 配置パターン情報
 400 学習モデル
 410 学習モデル群情報

Claims (3)

  1.  学習モデルを転移学習する転移学習装置であって、
     各カメラデバイスの位置を含む、複数の過去の配置パターンの情報が格納される配置パターン情報、および、撮影状況の情報を入力して、各カメラデバイスのデバイス制御値を出力する、前記過去の配置パターン毎の学習モデル、を記憶する記憶部と、
     新たな配置パターンのカメラデバイスとそのカメラデバイスの画像に類似する画像を撮影した過去の配置パターンのカメラデバイスとのデバイス間の距離差の情報を取得し、よりデバイス間の距離差が少ない過去の画像を撮影したカメラデバイスを選択することにより、前記新たな配置パターンに全体として類似する前記過去の配置パターンを選択するための所定の類似配置パターン選択ロジックに基づき、類似する前記過去の配置パターンを選択し、選択した類似する前記過去の配置パターンにおける学習モデルを、前記記憶部から抽出して出力する配置パターン選択部と、
     出力された類似する前記過去の配置パターンにおける学習モデルを転移学習し、新たな配置パターンの各カメラデバイスからの撮影状況の情報を入力して、当該各カメラデバイスの前記デバイス制御値を出力する、前記転移学習した新たな配置パターンの学習モデルを用いて、前記新たな配置パターンの各カメラデバイスを制御するデバイス制御部と、
     を備えることを特徴とする転移学習装置。
  2.  学習モデルを転移学習する転移学習装置の転移学習方法であって、
     前記転移学習装置は、
     各カメラデバイスの位置を含む、複数の過去の配置パターンの情報が格納される配置パターン情報、および、撮影状況の情報を入力して、各カメラデバイスのデバイス制御値を出力する、前記過去の配置パターン毎の学習モデル、を記憶する記憶部を備えており、
     新たな配置パターンのカメラデバイスとそのカメラデバイスの画像に類似する画像を撮影した過去の配置パターンのカメラデバイスとのデバイス間の距離差の情報を取得し、よりデバイス間の距離差が少ない過去の画像を撮影したカメラデバイスを選択することにより、前記新たな配置パターンに全体として類似する前記過去の配置パターンを選択するための所定の類似配置パターン選択ロジックに基づき、類似する前記過去の配置パターンを選択し、選択した類似する前記過去の配置パターンにおける学習モデルを、前記記憶部から抽出して出力するステップと、
     出力された類似する前記過去の配置パターンにおける学習モデルを転移学習し、新たな配置パターンの各カメラデバイスからの撮影状況の情報を入力して、当該各カメラデバイスの前記デバイス制御値を出力する、前記転移学習した新たな配置パターンの学習モデルを用いて、前記新たな配置パターンの各カメラデバイスを制御するステップと、
     を実行することを特徴とする転移学習方法。
  3.  各カメラデバイスの位置を含む、複数の過去の配置パターンの情報が格納される配置パターン情報、および、撮影状況の情報を入力して、各カメラデバイスのデバイス制御値を出力する、前記過去の配置パターン毎の学習モデル、を記憶する記憶部を有し、学習モデルを転移学習する転移学習装置としてのコンピュータに、
     新たな配置パターンのカメラデバイスとそのカメラデバイスの画像に類似する画像を撮影した過去の配置パターンのカメラデバイスとのデバイス間の距離差の情報を取得し、よりデバイス間の距離差が少ない過去の画像を撮影したカメラデバイスを選択することにより、前記新たな配置パターンに全体として類似する前記過去の配置パターンを選択するための所定の類似配置パターン選択ロジックに基づき、類似する前記過去の配置パターンを選択し、選択した類似する前記過去の配置パターンにおける学習モデルを、前記記憶部から抽出して出力する手順、
     出力された類似する前記過去の配置パターンにおける学習モデルを転移学習し、新たな配置パターンの各カメラデバイスからの撮影状況の情報を入力して、当該各カメラデバイスの前記デバイス制御値を出力する、前記転移学習した新たな配置パターンの学習モデルを用いて、前記新たな配置パターンの各カメラデバイスを制御する手順、
     を実行させるためのプログラム。
     
PCT/JP2020/033406 2020-09-03 2020-09-03 転移学習装置、転移学習方法およびプログラム WO2022049691A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2020/033406 WO2022049691A1 (ja) 2020-09-03 2020-09-03 転移学習装置、転移学習方法およびプログラム
JP2022546792A JP7380895B2 (ja) 2020-09-03 2020-09-03 転移学習装置、転移学習方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/033406 WO2022049691A1 (ja) 2020-09-03 2020-09-03 転移学習装置、転移学習方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2022049691A1 true WO2022049691A1 (ja) 2022-03-10

Family

ID=80491890

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/033406 WO2022049691A1 (ja) 2020-09-03 2020-09-03 転移学習装置、転移学習方法およびプログラム

Country Status (2)

Country Link
JP (1) JP7380895B2 (ja)
WO (1) WO2022049691A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016015116A (ja) * 2014-06-12 2016-01-28 パナソニックIpマネジメント株式会社 画像認識方法、カメラシステム
JP2016191966A (ja) * 2015-03-30 2016-11-10 株式会社メガチップス クラスタリング装置及び機械学習装置
JP2019118097A (ja) * 2017-12-26 2019-07-18 キヤノン株式会社 画像処理方法、画像処理装置、撮像装置、プログラム、記憶媒体
JP2019191981A (ja) * 2018-04-26 2019-10-31 Kddi株式会社 行動認識装置、モデル構築装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016015116A (ja) * 2014-06-12 2016-01-28 パナソニックIpマネジメント株式会社 画像認識方法、カメラシステム
JP2016191966A (ja) * 2015-03-30 2016-11-10 株式会社メガチップス クラスタリング装置及び機械学習装置
JP2019118097A (ja) * 2017-12-26 2019-07-18 キヤノン株式会社 画像処理方法、画像処理装置、撮像装置、プログラム、記憶媒体
JP2019191981A (ja) * 2018-04-26 2019-10-31 Kddi株式会社 行動認識装置、モデル構築装置及びプログラム

Also Published As

Publication number Publication date
JPWO2022049691A1 (ja) 2022-03-10
JP7380895B2 (ja) 2023-11-15

Similar Documents

Publication Publication Date Title
KR102477794B1 (ko) 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체
US20200234480A1 (en) Systems and methods for realistic head turns and face animation synthesis on mobile device
CN111986142A (zh) 一种热轧板卷表面缺陷图像数据无监督增强的方法
CN109389156B (zh) 一种图像定位模型的训练方法、装置及图像定位方法
JP6404527B1 (ja) カメラ制御システム、カメラ制御方法、およびプログラム
US11763508B2 (en) Disambiguation of poses
KR20220043847A (ko) 객체 포즈 추정 방법, 장치, 전자 장치 및 저장 매체
CN113359843A (zh) 一种无人机自主降落方法、装置、电子设备及存储介质
US11861777B2 (en) Using a determined optimum pose sequence to generate a corresponding sequence of frames of animation of an animation character
KR20230150867A (ko) 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측
WO2022049691A1 (ja) 転移学習装置、転移学習方法およびプログラム
CN117136383A (zh) 使用图像数据对环境进行建模
KR102549778B1 (ko) 다시점에 관련한 복수의 이미지에 대한 전처리를 수행하고, 전처리된 복수의 이미지를 통해 큐브맵을 생성하기 위한 방법, 서버 및 컴퓨터 프로그램
US20240087155A1 (en) Prior informed pose and scale estimation
JP6996455B2 (ja) 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
JP2017033556A (ja) 画像処理方法及び電子機器
CN114596475A (zh) 单应性流估计模型的训练方法、单应性流估计方法和装置
WO2022049690A1 (ja) 移動量推定装置、移動量推定方法およびプログラム
JP2022189901A (ja) 学習方法、学習装置、プログラムおよび記録媒体
US20230079478A1 (en) Face mesh deformation with detailed wrinkles
KR20220138707A (ko) 기계 학습을 위한 학습 데이터 생성 방법 및 시스템
AU2021303548A1 (en) Method and apparatus for relative positioning of a spreader
US11202000B2 (en) Learning apparatus, image generation apparatus, learning method, image generation method, and program
KR20230029981A (ko) 포즈 결정을 위한 시스템 및 방법
Yang et al. Passive initialization method based on motion characteristics for monocular slam

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20952430

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022546792

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20952430

Country of ref document: EP

Kind code of ref document: A1