WO2022230147A1 - 認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラム - Google Patents

認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラム Download PDF

Info

Publication number
WO2022230147A1
WO2022230147A1 PCT/JP2021/017091 JP2021017091W WO2022230147A1 WO 2022230147 A1 WO2022230147 A1 WO 2022230147A1 JP 2021017091 W JP2021017091 W JP 2021017091W WO 2022230147 A1 WO2022230147 A1 WO 2022230147A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition
model
image
learning
related information
Prior art date
Application number
PCT/JP2021/017091
Other languages
English (en)
French (fr)
Inventor
淳 伊藤
法子 横山
千尋 山本
和昭 尾花
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023516981A priority Critical patent/JPWO2022230147A1/ja
Priority to PCT/JP2021/017091 priority patent/WO2022230147A1/ja
Publication of WO2022230147A1 publication Critical patent/WO2022230147A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the disclosed technology relates to a recognition device, a recognition method, a recognition program, a model learning device, a model learning method, and a model learning program.
  • semantic segmentation represented by U-Net has been used as a method of recognizing what is in an image (see Non-Patent Document 1). Unlike object detection, which uses a label for each rectangle to represent what is in the image, semantic segmentation uses a label for each pixel, so it is possible to capture the area of the subject in detail.
  • the disclosed technology has been made in view of the above points, and includes a recognition device, a recognition method, a recognition program, a model learning device, a model learning method, and a model learning that enable recognition of difficult-to-recognize image regions.
  • the purpose is to provide a program.
  • a first aspect of the present disclosure is a recognition device that acquires relevant information related to a target object for a recognition target image that is an image obtained before and after a treatment for a container containing the target object, and a data extraction unit that extracts recognition target data that is a combination of a recognition target image and the related information; , a recognition unit that outputs a recognition result recognizing at least an area that is divided into areas other than the object, an area ratio in the pre-stored image before the front and back are captured, and the recognition result.
  • a ratio estimation unit for estimating the ratio of the object in the recognition target image, wherein the model transforms the recognition target image into a feature quantity map, and uses the latent information obtained from the related information to convert the feature quantity
  • the region is recognized by weighting and calculating the map.
  • a second aspect of the present disclosure is a model learning device, which is a learning after image captured before and after treatment of a container containing an object, a learning mask image corresponding to the after image, and the Learning data including relevant information related to an object is input, the image is converted into a feature quantity map by a model, and the feature quantity map is weighted and calculated by latent information obtained from the relevant information.
  • a recognition unit that outputs, as a recognition result, a mask image recognizing a region in which at least the container, the object, and the object other than the object are divided; the mask image of the recognition result; a model updating unit that quantifies a difference between mask images included in the data as a loss and updates parameters of the model so that the loss is reduced.
  • FIG. 1 is a block diagram showing the configuration of a model learning device of this embodiment;
  • FIG. It is an example of the data structure of the information storage part for learning. It is an example of the data structure of a related information storage part.
  • This is an example of performing weighted feature quantity map calculation processing on the channel component of the feature quantity map.
  • This is an example of performing weighted feature quantity map calculation processing on the spatial component of the feature quantity map.
  • 4 is a flowchart showing the flow of model learning processing by the model learning device; It is a flow chart which shows a flow of recognition processing by a recognition device.
  • Semantic segmentation technology can also be applied to use cases such as recognizing leftovers from images of tableware taken after a meal, for example.
  • the configuration of this embodiment will be described.
  • the embodiment describes each of a model learning device and a recognition device.
  • FIG. 1 is a block diagram showing the hardware configuration of the model learning device 100 and the recognition device 200.
  • FIG. The model learning device 100 and the recognition device 200 can have similar hardware configurations.
  • the model learning device 100 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, a storage 14, an input unit 15, a display unit 16, and a communication interface. (I/F) 17.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • storage 14 an input unit 15, a display unit 16, and a communication interface. (I/F) 17.
  • I/F communication interface.
  • the CPU 11 is a central processing unit that executes various programs and controls each part. That is, the CPU 11 reads a program from the ROM 12 or the storage 14 and executes the program using the RAM 13 as a work area. The CPU 11 performs control of each configuration and various arithmetic processing according to programs stored in the ROM 12 or the storage 14 . In this embodiment, the ROM 12 or storage 14 stores a model learning program.
  • the ROM 12 stores various programs and various data.
  • the RAM 13 temporarily stores programs or data as a work area.
  • the storage 14 is configured by a storage device such as a HDD (Hard Disk Drive) or SSD (Solid State Drive), and stores various programs including an operating system and various data.
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • the input unit 15 includes a pointing device such as a mouse and a keyboard, and is used for various inputs.
  • the display unit 16 is, for example, a liquid crystal display, and displays various information.
  • the display unit 16 may employ a touch panel system and function as the input unit 15 .
  • the communication interface 17 is an interface for communicating with other devices such as terminals.
  • the communication uses, for example, a wired communication standard such as Ethernet (registered trademark) or FDDI, or a wireless communication standard such as 4G, 5G, or Wi-Fi (registered trademark).
  • the recognition device 200 also has a CPU 21 , ROM 22 , RAM 23 , storage 24 , input section 25 , display section 26 and communication I/F 27 . Each component is communicatively connected to each other via a bus 29 .
  • a recognition program is stored in the ROM 22 or the storage 24 . Description of each part of the hardware configuration is omitted because it is the same as that of the model learning device 100 .
  • FIG. 2 is a block diagram showing the configuration of the model learning device 100 of this embodiment. Each functional configuration is realized by the CPU 11 reading a model learning program stored in the ROM 12 or the storage 14, developing it in the RAM 13, and executing it.
  • the model learning device 100 includes a learning information storage unit 102, a related information storage unit 104, a data division unit 110, a recognition unit 112, a model update unit 114, and a model writing unit 116. , and a model 120 .
  • FIG. 3 is an example of the data structure of the learning information storage unit 102.
  • the learning information storage unit 102 contains at least an after-meal image, a mask image, and a menu ID.
  • Post-meal images are past post-meal images saved for learning.
  • the mask image is obtained by manually masking (color-coding) the areas of the post-meal image, such as the background, plates, leftovers, and residues that do not correspond to leftovers.
  • the menu ID is the ID of the menu corresponding to the post-meal image, and is used as a key when referring to the table of the related information storage unit 104 .
  • a plate is an example of the container of the present disclosure. Leftovers (food) are one example of the subject matter of this disclosure.
  • a post-meal image is an example of an image taken before and after a treatment on a container containing an object of the present disclosure.
  • treatment is applied to meals, and "before treatment” means before a meal (at the time of serving), and "after treatment” means after a meal.
  • FIG. 4 is an example of the data structure of the related information storage unit 104. It is assumed that the related information storage unit 104 contains at least the menu ID, the menu related information, and the serving area ratio. Also, the menu-related information includes at least one item of information related to the menu, such as the name of the menu, the name of ingredients, and the type of dish.
  • the area ratio at the time of serving is the area ratio of each food to the area of the plate at the time of serving. The area ratio at the time of serving is obtained by inputting the image at the time of serving and the menu-related information to the recognition unit 112, calculating from the output mask image, or visually approximating from the image at the time of serving. Results are saved.
  • Menu-related information is an example of related information related to the subject matter of the present disclosure. Note that the related information related to the object includes information other than the container and the object.
  • the serving area ratio is an example of the area ratio in the previous images taken before and after the treatment of the present disclosure.
  • the data dividing unit 110 receives the learning information storage unit 102 and the related information storage unit 104, and divides the learning data into learning data and test data.
  • the learning data and test data consist of the post-meal image and mask image in the learning information storage unit 102, and the menu-related information in the related information storage unit 104 referenced using the menu ID as a key.
  • Learning data and test data are examples of learning data of the present disclosure.
  • the parameters of the model are updated by repeated processing by the recognition unit 112 and the model update unit 114 . Note that the network configuration of the model will be described later.
  • the recognition unit 112 receives learning data and test data as input, and recognizes regions classified into background, plates, leftovers, and residues that do not correspond to leftovers by semantic segmentation of the model.
  • the recognition result is output as a mask image.
  • the conventional technology does not assume input other than image information, but the method of the present disclosure is characterized in that menu-related information in the related information storage unit 104 is also input. Details of the recognition unit 112 will be described later.
  • the model update unit 114 quantifies the difference between the mask image of the recognition result when learning data is input and the mask image included in the learning data as a loss, and updates the parameters of the model to reduce the loss.
  • the model updating unit 114 also quantifies the degree of matching between the mask image of the recognition result when the test data is input and the mask image included in the test data as an accuracy rate, and measures the generalization performance of the model. If the generalization performance is found to have deteriorated since the previous learning, the learning is terminated and the processing of the model writing unit 116 is performed. If no deterioration in generalization performance is recognized, learning is continued and the processing of the recognition unit 112 is returned to.
  • the model writing unit 116 outputs the learned model 120 as an external file.
  • model learning device 100 has menu-related information that is input other than image information, and that the recognition unit 112 can handle inputs other than image information.
  • the recognition unit 112 can handle inputs other than image information.
  • a general configuration for learning a model in machine learning may be applied.
  • FIG. 5 is a block diagram showing the configuration of the recognition device 200 of this embodiment. Each functional configuration is realized by the CPU 21 reading a recognition program stored in the ROM 22 or the storage 24, developing it in the RAM 23, and executing it.
  • the recognition device 200 includes a model 120, a recognition information storage unit 202, a related information storage unit 204, mask information 206, a model reading unit 210, a data extraction unit 212, and a recognition unit 214. , a ratio estimation unit 216 , and an output unit 218 .
  • the model 120 is a model learned by the model learning device 100.
  • the recognition information storage unit 202 includes at least an after-meal image and a menu ID as a data structure.
  • the data structure of the recognition information storage unit 202 is a format obtained by removing the mask image from the data structure of the learning information storage unit 102 shown in FIG.
  • the related information storage unit 204 has the same data structure as the related information storage unit 104 of the model learning device 100, and includes menu IDs, menu related information, and serving area ratios.
  • FIG. 6 is an example of the data structure of the mask information 206.
  • the mask ID is the ID of the color palette of the mask image
  • the model reading unit 210 reads the file of the model 120 and expands it on the memory.
  • the data extraction unit 212 receives the post-meal image in the recognition information storage unit 202 and the menu-related information in the related information storage unit 204, and extracts recognition target data.
  • the recognition target data consists of an after-meal image and menu-related information corresponding to the after-meal image. Unlike learning data and test data, mask images are not included in recognition target data.
  • the recognition unit 214 inputs the recognition target data to the model 120, and outputs the recognition result of recognizing the area divided into the background, the plate, the leftovers, and the residue not corresponding to the leftovers by the output of the model 120. do.
  • the model 120 that has received the input performs semantic segmentation.
  • the recognition result is output as a mask image.
  • the input is different from that of the recognition unit 112 at the time of model learning, but the mask image has the same output.
  • the ratio estimating unit 216 estimates the ratio of leftovers based on the serving area ratio stored in the related information storage unit 204 and the mask image that is the recognition result output by the recognizing unit 214 . Since the mask image is in index color, the index can be determined by reading the mask information 206 in FIG. 6 and acquiring the mask name corresponding to the mask ID (index). The method for calculating the percentage of leftover food is shown below.
  • rt be the ratio of leftovers in a certain food t , at be the area ratio at the time of serving, m ⁇ M be the object in the mask image, and p m be the number of pixels. be. ... (1)
  • min is a function that returns the minimum value and is used to set the upper limit of the percentage of leftovers to 100%.
  • the leftovers ratio is not calculated.
  • the output unit 218 outputs the calculation result of the ratio of leftover food by the ratio estimation unit 216 to the external system.
  • the output data structure is changed according to the input interface of the external system for output.
  • FIG. 7 is an example of the data structure of the output data of the output unit 218. As shown in FIG. Leftover items have the same mask name as the mask information 206 .
  • the leftover ratio is a value estimated by the ratio estimation unit 216 .
  • FIG. 8 is an example network configuration for semantic segmentation in the model 120 .
  • the input post-meal image is converted into feature maps of different shapes by processing such as convolution, max pooling, and upsampling, and finally output as a mask image. be.
  • the part surrounded by the dashed line is the characteristic of the network configuration.
  • menu-related information is accepted as an input in addition to the post-meal image, and has a function of weighting a certain feature quantity map with the menu-related information and outputting it as a weighted feature quantity map.
  • FIG. 8 shows an example of applying weighted feature map calculation processing to the skip part in the middle row. can be applied to Moreover, although FIG. 8 shows an example in which this process is applied to only one place, it can be applied to a plurality of places.
  • FIG. 9 shows an example of performing weighted feature quantity map calculation processing on the channel component of the feature quantity map.
  • Both the input feature quantity map f in and the output weighted feature quantity map f out have the shape (H, W, C).
  • the menu-related information m which is another input, is text data such as a menu name, it is subjected to word segmentation processing such as morphological analysis and then converted into a vector for each word by word embedding. Then, it is prepared by, for example, averaging the vectors of all the words included in the menu name.
  • the data is categorical data such as the type of dish, it is converted into a vector by one-hot encoding and prepared.
  • Menu-related information m is transformed into latent information C' by a fully connected layer. If there are multiple sources of menu-related information, for example, if you want to use the menu name and the type of dish at the same time, the menu-related information m is a concatenation of the vectors obtained from each of the multiple information sources. It can correspond to the source. Therefore, it is possible to flexibly cope with the increase and decrease of additional information.
  • F concat (X, Y) is a function that means an operation of connecting tensor X and tensor Y.
  • FIG. 10 is an example of weighted feature quantity map calculation processing for the spatial component of the feature quantity map. Since the weight is applied to the spatial component, the input and output are the same, although the feature maps and functions are different from when the weight is applied to the channel component.
  • FIG. 11 is a flowchart showing the flow of model learning processing by the model learning device 100.
  • the model learning process is performed by the CPU 11 reading out the model learning program from the ROM 12 or the storage 14, developing it in the RAM 13, and executing it.
  • step S100 the CPU 11 receives the learning information storage unit 102 and the related information storage unit 104 as the data division unit 110, and divides the data into learning data and test data.
  • step S102 the CPU 11, as the recognition unit 112, receives learning data and test data, and recognizes regions classified into the background, plates, leftovers, and residues not corresponding to leftovers by semantic segmentation of the model. .
  • step S104 the CPU 11, as the model updating unit 114, quantifies the difference between the mask image of the recognition result when the learning data is input and the mask image included in the learning data as a loss, and modulates the model so as to reduce the loss. update the parameters of
  • step S106 the CPU 11, as the model updating unit 114, quantifies the degree of matching between the mask image of the recognition result when the test data is input and the mask image included in the test data as an accuracy rate, and calculates the generalization performance of the model. to measure
  • step S108 the CPU 11, as the model updating unit 114, determines whether or not there is a drop in generalization performance. If the generalization performance has deteriorated since the previous learning, the process proceeds to step S110, and if the generalization performance has not deteriorated, the process returns to step S102 and repeats the process.
  • step S110 the CPU 11, as the model writing unit 116, outputs the learned model 120 as an external file.
  • model learning device 100 of the present embodiment it is possible to learn model parameters that enable recognition of difficult-to-recognize image regions.
  • FIG. 12 is a flowchart showing the flow of recognition processing by the recognition device 200.
  • the recognition process is performed by the CPU 21 reading out the recognition program from the ROM 22 or the storage 24, developing it in the RAM 23, and executing it.
  • step S200 the CPU 21, as the model reading unit 210, reads the file of the model 120 and expands it on the memory.
  • step S202 the CPU 21, as the data extraction unit 212, receives the post-meal image in the recognition information storage unit 202 and the menu-related information in the related information storage unit 204, and extracts recognition target data.
  • step S204 the CPU 21, as the recognition unit 214, inputs the recognition target data to the model 120, and according to the output of the model 120, the background, the plate, the leftovers, and the residue that does not correspond to the leftovers are divided into regions. output the recognition result.
  • the model 120 that has received the input performs semantic segmentation.
  • the recognition result is output as a mask image.
  • step S206 the CPU 21, as the ratio estimating unit 216, estimates the ratio of leftovers based on the serving area ratio stored in the related information storage unit 204 and the mask image that is the output recognition result.
  • step S208 the CPU 21, as the output unit 218, outputs the calculation result of the ratio of leftover food by the ratio estimation unit 216 to the external system.
  • the recognition device 200 of the present embodiment it is possible to recognize regions of an image that are difficult to recognize.
  • the relationship between the latent information obtained from the menu-related information and the image information as a weight
  • the relationship between the menu-related information and the leftovers, and the relationship between the menu-related information and the residue that does not correspond to the leftovers can be calculated. It can learn and the recognition accuracy improves.
  • the weight of the channel component or spatial component of the feature map is calculated. Therefore, when what kind of menu-related information is input for what kind of image information, which channel or space in the feature value map attracts attention can be clarified from the magnitude of the weight value, making it possible to explain the basis for recognition. gender is given.
  • the model learning process or recognition process executed by the CPU reading the software (program) in the above embodiment may be executed by various processors other than the CPU.
  • the processor is a PLD (Programmable Logic Device) whose circuit configuration can be changed after manufacturing, such as an FPGA (Field-Programmable Gate Array), a GPU (Graphics Processing Unit), and an ASIC (Application Specific Integrated) circuit.
  • a dedicated electric circuit or the like which is a processor having a circuit configuration exclusively designed for executing a specific process of the processor, is exemplified.
  • model learning processing or recognition processing may be performed by one of these various processors, or a combination of two or more processors of the same or different type (e.g., multiple FPGAs, multiple GPUs, and a combination of a CPU and an FPGA, etc.). More specifically, the hardware structure of these various processors is an electric circuit in which circuit elements such as semiconductor elements are combined.
  • the mode in which the model learning program or the recognition program is pre-stored (installed) in the storage has been described, but the present invention is not limited to this.
  • Programs are stored in non-transitory storage media such as CD-ROM (Compact Disk Read Only Memory), DVD-ROM (Digital Versatile Disk Read Only Memory), and USB (Universal Serial Bus) memory.
  • non-transitory storage media such as CD-ROM (Compact Disk Read Only Memory), DVD-ROM (Digital Versatile Disk Read Only Memory), and USB (Universal Serial Bus) memory.
  • CD-ROM Compact Disk Read Only Memory
  • DVD-ROM Digital Versatile Disk Read Only Memory
  • USB Universal Serial Bus
  • (Appendix 1) memory at least one processor connected to the memory; including The processor Acquiring related information related to the target object for a recognition target image that is an image of a container containing the target object before and after being treated, and recognition target data that is a combination of the recognition target image and the related information.
  • a recognizer configured to:
  • Appendix 2 A non-transitory storage medium storing a program executable by a computer to perform recognition processing, Acquiring related information related to the target object for a recognition target image that is an image of a container containing the target object before and after being treated, and recognition target data that is a combination of the recognition target image and the related information.
  • Non-transitory storage media Non-transitory storage media.
  • model learning device 102 learning information storage unit 104 related information storage unit 110 data division unit 112 recognition unit 114 model update unit 116 model writing unit 120 model 200 recognition device 202 recognition information storage unit 204 related information storage unit 206 mask information 210 Model reading unit 212 Data extraction unit 214 Recognition unit 216 Ratio estimation unit 218 Output unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

認識装置は、データ抽出部と、認識部と、割合推定部とを含む。データ抽出部は、対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、対象物に関連する関連情報を取得し、認識対象画像及び関連情報の組み合わせである認識対象データを抽出する。認識部は、認識対象データを予め学習されたモデルへの入力としてモデルの出力により、容器と、対象物と、対象物以外と、が少なくとも区分される領域を認識した認識結果を出力する。割合推定部は、予め保存された前後を撮影した前の画像における面積割合と、認識結果とに基づいて、認識対象画像における対象物の割合を推定する。モデルは、認識対象画像を特徴量マップへと変換し、関連情報から得られる潜在情報により特徴量マップを重み付けて算出することにより、領域を認識する。

Description

認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラム
 開示の技術は、認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラムに関する。
 従来、画像に何が写っているかを認識する手法として、U-Netなどに代表されるセマンティックセグメンテーションが用いられてきた(非特許文献1参照)。何が写っているかを矩形ごとのラベルで表現する物体検出と異なり、セマンティックセグメンテーションは画素ごとのラベルで表現するため、被写体の領域を細かく捉えることができる。
O. Ronneberger, P. Fischer, and T. Brox, "U-Net: Convolutional Networks for Biomedical Image Segmentation," in MICCAI 2015.
 しかし、認識の難易度が高い場合に、従来の画像情報のみを用いたセマンティックセグメンテーション技術をそのまま適用するだけでは認識精度が低い場合がある。
 開示の技術は、上記の点に鑑みてなされたものであり、認識の困難な画像の領域の認識を可能にする認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラムを提供することを目的とする。
 本開示の第1態様は、認識装置であって、対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、前記対象物に関連する関連情報を取得し、前記認識対象画像及び前記関連情報の組み合わせである認識対象データを抽出するデータ抽出部と、前記認識対象データを予め学習されたモデルへの入力として前記モデルの出力により、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識した認識結果を出力する認識部と、予め保存された前記前後を撮影した前の画像における面積割合と、前記認識結果とに基づいて、前記認識対象画像における前記対象物の割合を推定する割合推定部と、を含み、前記モデルは、前記認識対象画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記領域を認識する。
 本開示の第2態様は、モデル学習装置であって、対象物を収めた容器に対する処置の前後を撮影した学習用の後の画像、前記後の画像に対応する学習用のマスク画像、及び前記対象物に関連する関連情報を含む学習用のデータを入力とし、モデルにより、前記画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識したマスク画像を認識結果として出力する認識部と、前記認識結果のマスク画像と、前記学習用のデータに含まれるマスク画像の差分を損失として数値化し、損失が少なくなるように前記モデルのパラメータを更新するモデル更新部と、を含む。
 開示の技術によれば、認識の困難な画像の領域の認識を可能にすることができる。
モデル学習装置及び認識装置のハードウェア構成を示すブロック図である。 本実施形態のモデル学習装置の構成を示すブロック図である。 学習用情報記憶部のデータ構造の例である。 関連情報記憶部のデータ構造の例である。 本実施形態の認識装置の構成を示すブロック図である。 マスク情報のデータ構造の例である。 出力部の出力データのデータ構造の例である。 モデルにおけるセマンティックセグメンテーションのネットワーク構成例である。 特徴量マップのチャンネル成分に対して、重み付き特徴量マップ算出処理を行う例である。 特徴量マップの空間成分に対して、重み付き特徴量マップ算出処理を行う例である。 モデル学習装置によるモデル学習処理の流れを示すフローチャートである。 認識装置による認識処理の流れを示すフローチャートである。
 以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
 まず、本開示の概要について説明する。
 セマンティックセグメンテーションの技術は、例えば、食事後の食器を撮影した画像から食べ残しを認識するようなユースケースにおいても適用ができる。
 しかし、上記課題において説明したように、食事後の食器を撮影した画像から食べ残しを認識するユースケースにおいて、従来の画像情報のみを用いたセマンティックセグメンテーション技術をそのまま適用するだけでは認識精度が低い場合がある。皿に残ったものがすべて食べ残しとなるわけではなく、食べ残しに該当しない残留物も含まれるため、認識の難易度が高いことが原因である。例えば、お椀に液体が残っていた場合、メニューがスープであれば食べ残しとなるが、ラーメンであれば完飲しないことも考えられるため食べ残しに該当しない残留物となるべきである。食べ残しに該当しない残留物のその他の例として、エビのしっぽ、パセリ、ソースやドレッシングによる皿の汚れ、などがあげられる。
 なお、以下の実施形態の説明においては食器の食べ残しを認識する態様を例に説明するが、容器の対象物の認識全般に適用可能である。
 本実施形態の構成について説明する。実施形態は、モデル学習装置と、認識装置とのそれぞれについて説明する。
 図1は、モデル学習装置100及び認識装置200のハードウェア構成を示すブロック図である。モデル学習装置100及び認識装置200は同様のハードウェア構成とすることができる。
 図1に示すように、モデル学習装置100は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16及び通信インタフェース(I/F)17を有する。各構成は、バス19を介して相互に通信可能に接続されている。
 CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12又はストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12又はストレージ14に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM12又はストレージ14には、モデル学習プログラムが格納されている。
 ROM12は、各種プログラム及び各種データを格納する。RAM13は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
 入力部15は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。
 表示部16は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能してもよい。
 通信インタフェース17は、端末等の他の機器と通信するためのインタフェースである。当該通信には、例えば、イーサネット(登録商標)若しくはFDDI等の有線通信の規格、又は、4G、5G、若しくはWi-Fi(登録商標)等の無線通信の規格が用いられる。
 認識装置200についても同様に、CPU21、ROM22、RAM23、ストレージ24、入力部25、表示部26及び通信I/F27を有する。各構成は、バス29を介して相互に通信可能に接続されている。ROM22又はストレージ24には、認識プログラムが格納されている。ハードウェア構成の各部についての説明は、モデル学習装置100と同様であるため省略する。
 次に、モデル学習装置100の各機能構成について説明する。
 図2は、本実施形態のモデル学習装置100の構成を示すブロック図である。各機能構成は、CPU11がROM12又はストレージ14に記憶されたモデル学習プログラムを読み出し、RAM13に展開して実行することにより実現される。
 図2に示すように、モデル学習装置100は、学習用情報記憶部102と、関連情報記憶部104と、データ分割部110と、認識部112と、モデル更新部114と、モデル書込部116と、モデル120とを含んで構成される。
 図3は学習用情報記憶部102のデータ構造の例である。学習用情報記憶部102には、少なくとも食事後画像、マスク画像、及びメニューIDが含まれていることとする。食事後画像は過去の食事後の画像を学習のために保存したものである。マスク画像は食事後画像中の背景、皿、食べ残し、及び食べ残しに該当しない残留物などの領域を人手によりマスキング(色分け)したものである。メニューIDは食事後画像に対応するメニューのIDであり、関連情報記憶部104のテーブルを参照する際のキーとして使用する。なお、皿が、本開示の容器の一例である。食べ残し(食べ物)が、本開示の対象物の一例である。食べ残しに該当しない残留物が、本開示の対象物以外の一例である。食事後画像が、本開示の対象物を収めた容器に対する処置の前後を撮影した後の画像の一例である。処置とは、本実施形態では食事に適用され、処置前が食事前(配膳時)、処置後が食事後である。
 図4は関連情報記憶部104のデータ構造の例である。関連情報記憶部104には、少なくともメニューID、メニュー関連情報、及び配膳時面積割合が含まれていることとする。また、メニュー関連情報はメニュー名、食材名、皿の種類など、メニューに関連する情報を少なくとも1つ含んでいることとする。配膳時面積割合は、配膳時における皿の面積に対するそれぞれの食べ物の面積割合である。配膳時面積割合は、配膳時の画像とメニュー関連情報を認識部112に入力し、出力されたマスク画像から計算する、又は配膳時の画像から目視で概算する、などの方法で数値を得た結果が保存されている。メニュー関連情報が、本開示の対象物に関連する関連情報の一例である。なお、対象物に関連する関連情報には、容器、及び対象物以外の情報も含まれる。配膳時面積割合が、本開示の処置の前後を撮影した前の画像における面積割合の一例である。
 データ分割部110は、学習用情報記憶部102、及び関連情報記憶部104を入力とし、学習データとテストデータに学習用のデータを分割する。学習データ及びテストデータは、学習用情報記憶部102の食事後画像、マスク画像、及びメニューIDをキーにして参照した関連情報記憶部104のメニュー関連情報からなる。学習データとテストデータに構造的な違いはなく、モデル更新部114での用途が異なる。学習データ及びテストデータが、本開示の学習用のデータの一例である。
 認識部112及びモデル更新部114の繰り返し処理によりモデルのパラメータが更新される。なお、モデルのネットワーク構成については後述する。
 認識部112は、学習データ及びテストデータを入力とし、モデルのセマンティックセグメンテーションにより背景、皿、食べ残し、及び食べ残しに該当しない残留物などが区分される領域を認識する。認識結果はマスク画像として出力される。従来の技術では、画像情報以外の入力を想定した構成となっていなかったが、本開示の手法では関連情報記憶部104のメニュー関連情報も入力とした構成になっている点が特徴である。なお、認識部112の詳細は後述する。
 モデル更新部114は、学習データを入力とした時の認識結果のマスク画像と、学習データに含まれるマスク画像の差分を損失として数値化し、損失が少なくなるようにモデルのパラメータを更新する。また、モデル更新部114は、テストデータを入力とした時の認識結果のマスク画像と、テストデータに含まれるマスク画像の一致度を正解率として数値化し、モデルの汎化性能を計測する。前回の学習時より汎化性能の低下が認められる場合は学習を終了してモデル書込部116の処理に移る。汎化性能の低下が認められない場合は学習を継続し、認識部112の処理に戻る。
 モデル書込部116は、学習したモデル120を外部ファイルとして出力する。
 モデル学習装置100において、画像情報以外の入力であるメニュー関連情報が存在すること、画像情報以外の入力を扱える認識部112になっていることが本開示の手法の特徴である。それ以外の構成は機械学習においてモデルを学習するための一般的な構成を適用すればよい。
 次に、認識装置200の各機能構成について説明する。
 図5は、本実施形態の認識装置200の構成を示すブロック図である。各機能構成は、CPU21がROM22又はストレージ24に記憶された認識プログラムを読み出し、RAM23に展開して実行することにより実現される。
 図5に示すように、認識装置200は、モデル120と、認識情報記憶部202と、関連情報記憶部204と、マスク情報206と、モデル読込部210と、データ抽出部212と、認識部214と、割合推定部216と、出力部218とを含んで構成される。
 モデル120は、モデル学習装置100で学習されたモデルである。
 認識情報記憶部202は、データ構造として、少なくとも食事後画像、及びメニューIDが含まれていることとする。認識情報記憶部202のデータ構造は、図3に示した学習用情報記憶部102のデータ構造からマスク画像を除いた形式である。
 関連情報記憶部204は、モデル学習装置100の関連情報記憶部104と同様のデータ構造を持ち、メニューID、メニュー関連情報、及び配膳時面積割合が含まれる。
 図6は、マスク情報206のデータ構造の例である。マスクIDはマスク画像のカラーパレットのID、マスク名はそれに対応するマスクが何であるかを示した名前である。例えば、カラーパレットの0番がRBG=(0,0,0)の黒色だったとすると、インデックスカラーのマスク画像において黒色となっている領域は背景であるということを意味する。
 モデル読込部210は、モデル120のファイルを読み込み、メモリ上に展開する。
 データ抽出部212は、認識情報記憶部202の食事後画像と、関連情報記憶部204のメニュー関連情報とを入力とし、認識対象データを抽出する。認識対象データは、食事後画像、及び食事後画像に対応するメニュー関連情報からなる。学習データ及びテストデータと異なり、マスク画像は認識対象データには含まれない。
 認識部214は、認識対象データをモデル120への入力として、モデル120の出力により、背景、皿、食べ残し、及び食べ残しに該当しない残留物などが区分される領域を認識した認識結果を出力する。入力を受けたモデル120ではセマンティックセグメンテーションを行う。認識結果はマスク画像として出力される。モデル学習時の認識部112と入力は異なるが同じ出力のマスク画像である。
 割合推定部216は、関連情報記憶部204に保存された配膳時面積割合と、認識部214で出力される認識結果であるマスク画像とに基づいて、食べ残し割合を推定する。マスク画像はインデックスカラーとなっているため、インデックスが何であるかは、図6のマスク情報206を読み込み、マスクID(インデックス)に対応するマスク名を取得することで解決する。以下に食べ残し割合の計算方法を示す。
 関連情報記憶部204の配膳時面積割合でポテトの数値が0.15と保存されており、マスク画像に皿が128ピクセル、ポテトが24ピクセル、ブロッコリーが18ピクセル、ソース汚れが30ピクセル写っていたとする。食べ残し及び食べ残しに該当しない残留物は皿の上に位置していると考えられるため、マスク画像において皿の面積に対するポテトの面積の割合を求めると、以下のように計算できる。
 24÷(128+24+18+30)=0.12
 したがって、食べ残し割合は、以下の計算となり、配膳時のポテトに対して80%が食べ残しになっている、と計算できる。
 100*0.12÷0.15=80
 ある食べ物tにおける食べ残し割合をr、配膳時面積割合をa、マスク画像に写っている物をm∈M、そのピクセル数をpとすると、以下の(1)式で一般化される。
Figure JPOXMLDOC01-appb-M000001

                                   ・・・(1)
 minは最小値を返す関数であり、食べ残し割合の上限を100%にするために使用する。なお、食べ残しに該当しない残留物は食べ残しではないため、食べ残し割合の計算は行われない。
 出力部218は、割合推定部216の食べ残し割合の計算結果を外部システムに向けて出力する。出力データ構造は出力にあたって外部システムの入力インタフェースに合わせて変更する。図7は出力部218の出力データのデータ構造の例である。食べ残し品目はマスク情報206のマスク名と同じである。食べ残し割合は割合推定部216によって推定された値である。
 次に、モデル120のネットワークを説明する。図8は、モデル120におけるセマンティックセグメンテーションのネットワーク構成例である。入力された食事後画像は、畳み込み(convolution)、最大プーリング(max pooling)、及びアップサンプリング(upsampling)などの処理により、異なるシェイプの特徴量マップへと変換され、最終的にマスク画像として出力される。破線部で囲まれた部分がネットワーク構成上の特徴である。このネットワーク構成では、食事後画像以外にメニュー関連情報が入力として受け付けられるようになっており、ある特徴量マップをメニュー関連情報によって重み付け、重み付き特徴量マップとして出力する機能を有している。図8では中段のスキップ(skip)部分に重み付き特徴量マップ算出処理を適用する例を示したが、本処理は入出力前後で特徴量マップのシェイプが変わらないため、任意の特徴量マップに対して適用することができる。また、図8では1箇所のみに本処理を適用する例を示したが、複数箇所に適用することができる。重み付き特徴量マップ算出処理はいくつかの処理方法が考えられ、次に代表例を2つ挙げて説明する。
 図9は、特徴量マップのチャンネル成分に対して、重み付き特徴量マップ算出処理を行う例である。入力の特徴量マップfin、出力の重み付き特徴量マップfoutはともにシェイプが(H,W,C)である。もう1つの入力であるメニュー関連情報mは、例えばメニュー名などテキストデータである場合は、形態素解析などにより単語分割処理を行った上で単語埋め込み(Word Embedding)によって単語ごとにベクトルに変換する。そして、メニュー名に含まれる全単語のベクトルの平均値をとるなどして用意する。皿の種類などカテゴリカルデータである場合は、One-hotエンコーディングによってベクトルに変換して用意する。メニュー関連情報mは全結合層によって潜在情報C’に変換される。メニュー関連情報の情報源が複数ある場合、例えばメニュー名と皿の種類を同時に利用したい場合は、複数の情報源のそれぞれで得たベクトルを連結したメニュー関連情報mとすることで、複数の情報源に対応できる。そのため柔軟に追加情報の増減に対応できる。
 以下にチャンネル成分の重みw、重み付き特徴量マップfoutの算出式(2-1)、(2-2)を示す。
Figure JPOXMLDOC01-appb-M000002

                                   ・・・(2-1)
Figure JPOXMLDOC01-appb-I000003

                                   ・・・(2-2)
 なお、Fconcat(X,Y)は、テンソルXとテンソルYを連結する操作を意味する関数である。
 図10は、特徴量マップの空間成分に対して、重み付き特徴量マップ算出処理を行う例である。空間成分に重みを適用するため、チャンネル成分に重みを適用した時と途中の特徴量マップや関数は異なっているが、入出力は同じである。
 以下に空間成分の重みw、重み付き特徴量マップfoutの算出式(3-1)、(3-2)を示す。
Figure JPOXMLDOC01-appb-M000004

                                   ・・・(3-1)
Figure JPOXMLDOC01-appb-I000005

                                   ・・・(3-2)
 次に、モデル学習装置100及び認識装置200の作用について説明する。
 図11は、モデル学習装置100によるモデル学習処理の流れを示すフローチャートである。CPU11がROM12又はストレージ14からモデル学習プログラムを読み出して、RAM13に展開して実行することにより、モデル学習処理が行なわれる。
 ステップS100において、CPU11は、データ分割部110として、学習用情報記憶部102、及び関連情報記憶部104を入力とし、学習データとテストデータにデータを分割する。
 ステップS102において、CPU11は、認識部112として、学習データ及びテストデータを入力とし、モデルのセマンティックセグメンテーションにより背景、皿、食べ残し、及び食べ残しに該当しない残留物などが区分される領域を認識する。
 ステップS104において、CPU11は、モデル更新部114として、学習データを入力とした時の認識結果のマスク画像と、学習データに含まれるマスク画像の差分を損失として数値化し、損失が少なくなるようにモデルのパラメータを更新する。
 ステップS106において、CPU11は、モデル更新部114として、テストデータを入力とした時の認識結果のマスク画像と、テストデータに含まれるマスク画像の一致度を正解率として数値化し、モデルの汎化性能を計測する。
 ステップS108において、CPU11は、モデル更新部114として、汎化性能の低下があるか否かを判定する。前回の学習時より汎化性能の低下がある場合はステップS110へ移行し、汎化性能の低下がない場合はステップS102に戻って処理を繰り返す。
 ステップS110において、CPU11は、モデル書込部116として、学習したモデル120を外部ファイルとして出力する。
 以上説明したように本実施形態のモデル学習装置100によれば、認識の困難な画像の領域の認識を可能にするモデルのパラメータを学習できる。
 図12は、認識装置200による認識処理の流れを示すフローチャートである。CPU21がROM22又はストレージ24から認識プログラムを読み出して、RAM23に展開して実行することにより、認識処理が行なわれる。
 ステップS200において、CPU21は、モデル読込部210として、モデル120のファイルを読み込み、メモリ上に展開する。
 ステップS202において、CPU21は、データ抽出部212として、認識情報記憶部202の食事後画像と、関連情報記憶部204のメニュー関連情報とを入力とし、認識対象データを抽出する。
 ステップS204において、CPU21は、認識部214として、認識対象データをモデル120への入力として、モデル120の出力により、背景、皿、食べ残し、及び食べ残しに該当しない残留物などが区分される領域を認識した認識結果を出力する。入力を受けたモデル120ではセマンティックセグメンテーションを行う。認識結果はマスク画像として出力される。
 ステップS206において、CPU21は、割合推定部216として、関連情報記憶部204に保存された配膳時面積割合と、出力された認識結果であるマスク画像とに基づいて、食べ残し割合を推定する。
 ステップS208において、CPU21は、出力部218として、割合推定部216の食べ残し割合の計算結果を外部システムに向けて出力する。
 以上説明したように本実施形態の認識装置200によれば、認識の困難な画像の領域の認識を可能にする。
 また、メニュー関連情報から得た潜在情報と画像情報の関係性を重みとして利用することで、メニュー関連情報と食べ残しの関係性、メニュー関連情報と食べ残しに該当しない残留物との関係性を学習することができ、認識精度が向上する。
 また、特徴量マップのチャンネル成分、又は空間成分の重みが算出される。そのため、どんな画像情報に対してどのようなメニュー関連情報が入力されると、特徴量マップのどのチャンネルや空間が注目されるのかが重みの値の大小から明らかになり、認識根拠についての説明可能性が与えられる。
   なお、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行したモデル学習処理又は認識処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、並びに、GPU(Graphics Processing Unit)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、モデル学習処理又は認識処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、複数のGPU、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
 また、上記実施形態では、モデル学習プログラム又は認識プログラムがストレージに予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
 以上の実施形態に関し、更に以下の付記を開示する。
 (付記項1)
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、前記対象物に関連する関連情報を取得し、前記認識対象画像及び前記関連情報の組み合わせである認識対象データを抽出し、
 前記認識対象データを予め学習されたモデルへの入力として前記モデルの出力により、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識した認識結果を出力し、
 予め保存された前記前後を撮影した前の画像における面積割合と、前記認識結果とに基づいて、前記認識対象画像における前記対象物の割合を推定し、
 前記モデルは、前記認識対象画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記領域を認識する、
 ように構成されている認識装置。
 (付記項2)
 認識処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
 対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、前記対象物に関連する関連情報を取得し、前記認識対象画像及び前記関連情報の組み合わせである認識対象データを抽出し、
 前記認識対象データを予め学習されたモデルへの入力として前記モデルの出力により、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識した認識結果を出力し、
 予め保存された前記前後を撮影した前の画像における面積割合と、前記認識結果とに基づいて、前記認識対象画像における前記対象物の割合を推定し、
 前記モデルは、前記認識対象画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記領域を認識する、
 非一時的記憶媒体。
100 モデル学習装置
102 学習用情報記憶部
104 関連情報記憶部
110 データ分割部
112 認識部
114 モデル更新部
116 モデル書込部
120 モデル
200 認識装置
202 認識情報記憶部
204 関連情報記憶部
206 マスク情報
210 モデル読込部
212 データ抽出部
214 認識部
216 割合推定部
218 出力部

Claims (8)

  1.  対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、前記対象物に関連する関連情報を取得し、前記認識対象画像及び前記関連情報の組み合わせである認識対象データを抽出するデータ抽出部と、
     前記認識対象データを予め学習されたモデルへの入力として前記モデルの出力により、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識した認識結果を出力する認識部と、
     予め保存された前記前後を撮影した前の画像における面積割合と、前記認識結果とに基づいて、前記認識対象画像における前記対象物の割合を推定する割合推定部と、を含み、
     前記モデルは、前記認識対象画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記領域を認識する、
     認識装置。
  2.  前記モデルにおいて、前記関連情報は全結合層によって前記潜在情報に変換される構成とし、前記関連情報の情報源を単一又は複数とする請求項1に記載の認識装置。
  3.  前記モデルは、前記特徴量マップのチャンネル成分、又は空間成分に対して重み付き特徴量マップ算出処理を行う請求項1又は請求項2に記載の認識装置。
  4.  対象物を収めた容器に対する処置の前後を撮影した学習用の後の画像、前記後の画像に対応する学習用のマスク画像、及び前記対象物に関連する関連情報を含む学習用のデータを入力とし、モデルにより、前記画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識したマスク画像を認識結果として出力する認識部と、
     前記認識結果のマスク画像と、前記学習用のデータに含まれるマスク画像の差分を損失として数値化し、損失が少なくなるように前記モデルのパラメータを更新するモデル更新部と、
     を含むモデル学習装置。
  5.  対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、前記対象物に関連する関連情報を取得し、前記認識対象画像及び前記関連情報の組み合わせである認識対象データを抽出し、
     前記認識対象データを予め学習されたモデルへの入力として前記モデルの出力により、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識した認識結果を出力し、
     予め保存された前記前後を撮影した前の画像における面積割合と、前記認識結果とに基づいて、前記認識対象画像における前記対象物の割合を推定し、
     前記モデルは、前記認識対象画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記領域を認識する、
     ことを含む処理をコンピュータに実行させる認識方法。
  6.  対象物を収めた容器に対する処置の前後を撮影した学習用の後の画像、前記後の画像に対応する学習用のマスク画像、及び前記対象物に関連する関連情報を含む学習用のデータを入力とし、モデルにより、前記画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識したマスク画像を認識結果として出力し、
     前記認識結果のマスク画像と、前記学習用のデータに含まれるマスク画像の差分を損失として数値化し、損失が少なくなるように前記モデルのパラメータを更新する、
     ことを含む処理をコンピュータに実行させるモデル学習方法。
  7.  対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、前記対象物に関連する関連情報を取得し、前記認識対象画像及び前記関連情報の組み合わせである認識対象データを抽出し、
     前記認識対象データを予め学習されたモデルへの入力として前記モデルの出力により、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識した認識結果を出力し、
     予め保存された前記前後を撮影した前の画像における面積割合と、前記認識結果とに基づいて、前記認識対象画像における前記対象物の割合を推定し、
     前記モデルは、前記認識対象画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記領域を認識する、
     処理をコンピュータに実行させる認識プログラム。
  8.  対象物を収めた容器に対する処置の前後を撮影した学習用の後の画像、前記後の画像に対応する学習用のマスク画像、及び前記対象物に関連する関連情報を含む学習用のデータを入力とし、モデルにより、前記画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識したマスク画像を認識結果として出力し、
     前記認識結果のマスク画像と、前記学習用のデータに含まれるマスク画像の差分を損失として数値化し、損失が少なくなるように前記モデルのパラメータを更新する、
     処理をコンピュータに実行させるモデル学習プログラム。
PCT/JP2021/017091 2021-04-28 2021-04-28 認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラム WO2022230147A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023516981A JPWO2022230147A1 (ja) 2021-04-28 2021-04-28
PCT/JP2021/017091 WO2022230147A1 (ja) 2021-04-28 2021-04-28 認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/017091 WO2022230147A1 (ja) 2021-04-28 2021-04-28 認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラム

Publications (1)

Publication Number Publication Date
WO2022230147A1 true WO2022230147A1 (ja) 2022-11-03

Family

ID=83848127

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/017091 WO2022230147A1 (ja) 2021-04-28 2021-04-28 認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラム

Country Status (2)

Country Link
JP (1) JPWO2022230147A1 (ja)
WO (1) WO2022230147A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138452A (ja) * 2014-01-23 2015-07-30 東芝テック株式会社 料理残量検出装置及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138452A (ja) * 2014-01-23 2015-07-30 東芝テック株式会社 料理残量検出装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ARATA YOKOYAMA , TAKU OKUNO: "Construction of an additional cooking instruction system for buffets at lodging facilities", IEICE TECHNICAL REPORT, IE, IEICE, JP, vol. 119, no. 206 (IE2019-22), 12 September 2019 (2019-09-12), JP, pages 13 - 18, XP009540610 *

Also Published As

Publication number Publication date
JPWO2022230147A1 (ja) 2022-11-03

Similar Documents

Publication Publication Date Title
CN111104962B (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
CN108921225B (zh) 一种图像处理方法及装置、计算机设备和存储介质
WO2021109876A1 (zh) 图像处理方法、装置、设备及存储介质
CN108961279A (zh) 图像处理方法、装置及移动终端
US9697583B2 (en) Image processing apparatus, image processing method, and computer-readable recording medium
CN111369550B (zh) 图像配准与缺陷检测方法、模型、训练方法、装置及设备
JP6547386B2 (ja) 画像処理装置及び方法
CN112233125B (zh) 图像分割方法、装置、电子设备及计算机可读存储介质
CN110728722B (zh) 图像颜色迁移方法、装置、计算机设备和存储介质
CN107506792B (zh) 一种半监督的显著对象检测方法
CN110245747B (zh) 基于全卷积神经网络的图像处理方法及装置
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
US20210248729A1 (en) Superpixel merging
CN112534443A (zh) 图像处理设备及其操作方法
US20190139228A1 (en) Object segmentation apparatus and method using gaussian mixture model and total variation
CN114742848A (zh) 基于残差双重注意力的息肉图像分割方法、装置、设备及介质
CN114049491A (zh) 指纹分割模型训练、指纹分割方法、装置、设备及介质
WO2022230147A1 (ja) 認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラム
Gonzalez et al. Morphological reconstruction
CN111091604B (zh) 快速成像模型的训练方法、装置及服务器
CN111274145A (zh) 关系结构图生成方法、装置、计算机设备及存储介质
US11200708B1 (en) Real-time color vector preview generation
CN116433674B (zh) 半导体硅晶圆检测方法、装置、计算机设备及介质
Zhang et al. Salient detection network for lung nodule detection in 3D Thoracic MRI Images
CN113763496B (zh) 图像着色的方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21939306

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023516981

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21939306

Country of ref document: EP

Kind code of ref document: A1