WO2024048741A1 - 調理動作推定装置、調理動作推定方法、および、調理動作推定プログラム - Google Patents

調理動作推定装置、調理動作推定方法、および、調理動作推定プログラム Download PDF

Info

Publication number
WO2024048741A1
WO2024048741A1 PCT/JP2023/031880 JP2023031880W WO2024048741A1 WO 2024048741 A1 WO2024048741 A1 WO 2024048741A1 JP 2023031880 W JP2023031880 W JP 2023031880W WO 2024048741 A1 WO2024048741 A1 WO 2024048741A1
Authority
WO
WIPO (PCT)
Prior art keywords
cooking
video
action
hand
motion estimation
Prior art date
Application number
PCT/JP2023/031880
Other languages
English (en)
French (fr)
Inventor
卓 森
恭子 数藤
寛也 川▲崎▼
信和 小野
裕子 三宅
Original Assignee
味の素株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 味の素株式会社 filed Critical 味の素株式会社
Publication of WO2024048741A1 publication Critical patent/WO2024048741A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Definitions

  • the present invention relates to a cooking motion estimation device, a cooking motion estimation method, and a cooking motion estimation program.
  • Patent Document 1 discloses a technique for creating a recipe that captures the entire cooking process including cooking operations by capturing images with a camera fixed to a range hood.
  • Patent Document 2 discloses a technique for generating a short video suitable for viewing by customers in a food section of a supermarket or the like from a video of a cooking scene.
  • Patent Document 3 discloses a technology that allows a user to estimate the usage amount of a food ingredient or seasoning using only a video taken from above by a camera while cooking.
  • Patent Document 4 discloses that the line of sight direction is recognized based on the position of the user's eyeballs from a cooking video taken from the front using two cameras fixed in the kitchen, and the user's current position and A technique for estimating work content from body orientation and line of sight direction has been disclosed.
  • the present invention has been made in view of the above-mentioned problem, and the hand area estimated from the coordinates of the joint points recognized by posture recognition for each video frame overlaps with the cooking utensil area recognized by object recognition. It is an object of the present invention to provide a cooking motion estimation device, a cooking motion estimation method, and a cooking motion estimation program that can determine when the cooking utensil is being used and estimate the cooking motion from the type of the cooking utensil used. purpose.
  • a cooking motion estimation device that includes a storage section and a control section, the storage section including a video database that stores cooking behavior videos of each user.
  • the control unit includes a hand estimation unit that identifies the coordinates of joint points for each video frame forming the cooking action video and estimates a hand region, which is a coordinate region of the hand, based on posture recognition technology; a cooking utensil identification unit that specifies a cooking utensil area, which is a coordinate area of a cooking utensil, for each of the video frames constituting the cooking action video based on a recognition technology, and when the hand area and the cooking utensil area overlap; , a cooking operation estimator that estimates the cooking operation for each video frame from the type of the cooking utensil.
  • the control unit includes a time setting unit that sets an elapsed time in association with the video frame, and a time setting unit that sets an elapsed time in association with the video frame, and a time setting unit that sets the cooking operation based on the cooking operation for each video frame.
  • the present invention is characterized in that it further includes a classification calculation unit that calculates the cooking time and work amount for each cooking operation classification whose characteristics are identified.
  • control unit may calculate a representative cooking time value for each cooking operation category and a cooking amount based on the cooking time and the work amount for each cooking operation category of all the users.
  • the present invention is characterized in that it further includes a representative value acquisition unit that acquires a representative value of workload.
  • control unit may determine whether or not the cooking time and/or the amount of work are outliers based on the representative value of cooking time and/or the representative value of work amount.
  • the cooking method is characterized by further comprising an outlier identifying section that identifies the cooking action video in which the action is recorded.
  • the cooking action video is set with attribute data indicating the user's attributes
  • the classification calculation unit is configured to calculate the attribute data
  • the method is characterized in that the cooking time and the amount of work are calculated for each attribute and each cooking operation category based on the cooking operation.
  • the time setting unit further acquires order data of the cooking operation based on the cooking operation for each video frame
  • the control unit further acquires order data of the cooking operation based on the cooking operation for each video frame.
  • the cooking method further includes a cooking behavior acquisition unit that acquires cooking behavior data of the user based on the cooking time and the amount of work for each category, and the order data.
  • the storage unit uses hand video frames in which a plurality of hand movements during cooking are recorded as teacher data, and inputs the video frames constituting the cooking action video.
  • a model database storing a posture recognition model whose output is the hand region, and the hand estimator uses the posture recognition model to estimate the joints for each video frame constituting the cooking action video.
  • the present invention is characterized in that the coordinates of a point are specified and the hand area, which is a coordinate area of the hand, is estimated.
  • the storage unit uses a cooking utensil video frame in which a plurality of the cooking utensils are recorded as training data, inputs the video frame constituting the cooking action video, and outputs further comprising a model database storing an object recognition model in which the cooking utensil area is the cooking utensil region, and the cooking utensil specifying unit uses the object recognition model to determine the cooking utensil area for each of the video frames constituting the cooking action video.
  • the method is characterized in that the cooking utensil area is specified as a coordinate area of the utensil.
  • the attribute is a degree of cooking skill for identifying whether someone is good at cooking or not good at cooking.
  • the cooking action video is a video recording the user's cooking from the side in any kitchen including the user's home kitchen.
  • the storage unit may use the cooking video in which the hand region is labeled as training data, the hand region and the cooking utensil region as explanatory variables, and the cooking motion as a target variable.
  • model storage means for storing a cooking motion estimation model that is a machine learning model, and the cooking motion estimation means uses the cooking motion estimation model when the hand region and the cooking utensil region overlap, The method is characterized in that the cooking operation for each video frame is estimated from the type of the cooking utensil.
  • control unit may determine the ingredients for each of the video frames constituting the cooking action video based on the object recognition technology or the image region division technology for the video frames.
  • the present invention is characterized by further comprising a foodstuff specifying means for specifying a foodstuff area that is a coordinate area of .
  • the food specifying means further estimates intake nutrients from the food.
  • the cooking motion estimation means further includes, when the hand region and the food material region overlap, or when the cooking utensil region and the food material region overlap, the cooking motion estimation means
  • the method is characterized in that the cooking operation for each video frame is estimated from the type of video frame.
  • the control unit specifies a seasoning region, which is a coordinate region of a seasoning, for each of the video frames constituting the cooking action video, based on the object recognition technology.
  • the present invention is characterized by further comprising seasoning identifying means.
  • the cooking motion estimation means further estimates the cooking motion for each video frame from the type of the seasoning when the hand region and the seasoning region overlap. It is characterized by
  • the cooking action estimation method is a cooking action estimation method for causing a cooking action estimation device including a storage unit and a control unit to perform the cooking action estimation method, wherein the storage unit stores cooking action videos of each user.
  • a video database to be stored; and based on posture recognition technology executed by the control unit, coordinates of joint points are specified for each video frame constituting the cooking action video, and a hand region that is a coordinate region of the hand is specified.
  • the cooking action estimation program is a cooking action estimation program to be executed by a cooking action estimation device including a storage unit and a control unit, and the storage unit stores cooking action videos of each user.
  • a video database to be stored; in the control unit, based on posture recognition technology, coordinates of joint points are specified for each video frame constituting the cooking action video, and a hand region that is a coordinate region of the hand is estimated; a cooking utensil identification step of specifying a cooking utensil area, which is a coordinate area of the cooking utensil, for each of the video frames constituting the cooking action video based on object recognition technology; If the cooking utensil areas overlap, a cooking action estimating step of estimating the cooking action for each video frame from the type of the cooking utensil is performed.
  • the present invention it is possible to introduce an index that does not depend on the subjectivity of the observer into the observation of cooking behavior, reduce the effort required to observe behavior, and realize a survey targeting a large number of consumers. play. Furthermore, according to the present invention, since the behavioral video can be taken by the consumer himself using his own terminal such as a smartphone, it is not necessary to use special filming equipment or an observer's visit to the consumer's home. This has the effect that it is no longer necessary. Further, according to the present invention, it is possible to provide an objective and quantitative index of a consumer's cooking behavior from a cooking video taken by the consumer.
  • the present invention by being able to quantitatively evaluate the time and amount of work for each cooking operation category, it is possible to extract actions that the user feels are burdensome during cooking, and to identify users who are performing characteristic actions. It has the effect of being able to do it. Further, according to the present invention, by using a moving image captured from the side rather than from an overhead view, it is possible to appropriately capture the vertical movement of the hand when cutting food with a knife, for example. . As a result, according to the present invention, it is possible to appropriately estimate the amount of work for each cooking operation (step).
  • the cooking utensil is used. This has the effect that the cooking operation can be estimated from the type of cooking utensil used. Further, according to the present invention, from the cooking video data taken by the consumer himself/herself, the posture of the person in each frame of the video is recognized, the coordinates of each joint point are extracted, and the cooking utensils in each frame of the video are recognized.
  • the type of cooking utensil and its coordinates are extracted, the cooking process is classified based on the extracted joint point data and cooking utensil data for each frame, and cooking behavior data such as time, order, amount of work, etc. of the classified cooking process is collected. This has the effect that it can be created.
  • FIG. 1 is a block diagram showing an example of the configuration of a cooking motion estimation device according to the present embodiment.
  • FIG. 2 is a flowchart illustrating an example of the cooking motion estimation process in this embodiment.
  • FIG. 3 is a diagram illustrating an example of the cooking motion estimation process in this embodiment.
  • FIG. 4 is a diagram illustrating an example of the cooking motion estimation process in this embodiment.
  • FIG. 5 is a diagram illustrating an example of the cooking motion estimation process in this embodiment.
  • FIG. 6 is a diagram illustrating an example of the cooking motion estimation process in this embodiment.
  • FIG. 7 is a diagram illustrating an example of the cooking motion estimation process in this embodiment.
  • FIG. 8 is a diagram showing an example of the cooking behavior analysis results in this embodiment.
  • FIG. 1 is a block diagram showing an example of the configuration of a cooking motion estimation device according to the present embodiment.
  • FIG. 2 is a flowchart illustrating an example of the cooking motion estimation process in this embodiment.
  • FIG. 3 is a diagram illustrating
  • FIG. 9 is a diagram showing an example of the cooking behavior analysis results in this embodiment.
  • FIG. 10 is a diagram showing an example of the cooking behavior analysis results in this embodiment.
  • FIG. 11 is a diagram showing an example of image region division in this embodiment.
  • FIG. 12 is a diagram illustrating an example of cooking behavior analysis processing in this embodiment.
  • the cooking motion estimation system according to the present embodiment can be configured by functionally or physically distributing and integrating arbitrary units (stand-alone type or system type).
  • FIG. 1 is a block diagram showing an example of the configuration of a cooking motion estimation device 200 in this embodiment.
  • the terminal device 100 is not only a digital camera or a web camera, but also a mobile terminal such as a mobile phone, a smartphone, a tablet terminal, a PHS or a PDA (Personal Digital Assistant), or a commonly available desktop or notebook type.
  • the information processing device may be an information processing device such as a personal computer.
  • the terminal device 100 includes a control section 102, a storage section 106, and an input/output section 112, and each section included in the terminal device 100 is communicably connected via an arbitrary communication path.
  • the input/output unit 112 has a function of inputting/outputting (I/O) data including moving images, and digitally converts images (still images and moving images) taken with an image sensor such as a CCD image sensor or a CMOS image sensor. It is an image input unit (for example, a camera, etc.) that records as data.
  • the input/output unit 112 may include, for example, a key input unit, a touch panel, a control pad (eg, a touch pad, a game pad, etc.), a mouse, a keyboard, a microphone, and the like.
  • the input/output unit 112 may include a display unit (for example, a display composed of a liquid crystal or organic EL, a monitor, a touch panel, etc.) that displays (input/output) information such as application software. .
  • the input/output unit 112 may include an audio output unit (for example, a speaker, etc.) that outputs audio information as audio.
  • the input/output unit 112 may also include a fingerprint sensor, a camera (for example, an infrared camera, etc.) that can be used for iris authentication or face authentication, and/or a biosensor such as a vein sensor.
  • the terminal device 100 has a function of being communicably connected to other devices via the network 300 and communicating data with the other devices.
  • the network 300 has a function of connecting the terminal device 100 and other devices so that they can communicate with each other, and is, for example, the Internet and/or a LAN (Local Area Network).
  • the storage unit 106 stores various databases, tables, and/or files.
  • the storage unit 106 stores computer programs for providing instructions to a CPU (Central Processing Unit) to perform various processes in cooperation with an OS (Operating System).
  • a RAM Random Access Memory
  • ROM Read Only Memory
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • the storage unit 106 may store image data recorded by the input/output unit 112, data received via the network 300, and/or input data input via the input/output unit 112, etc. good.
  • the control unit 102 is a CPU or the like that collectively controls the terminal device 100.
  • the control unit 102 has an internal memory for storing control programs such as an OS, programs that define various processing procedures, required data, etc., and performs various information processing based on these stored programs. Execute.
  • the control unit 102 acquires image data recorded by the input/output unit 112 , reads character data (URL, etc.) included in the image data, transmits and receives data via the network 300 , and performs data transmission and reception via the input/output unit 112 It is also possible to perform various processes such as acquiring input data inputted by the user and displaying the data (screen) on the input/output unit 112.
  • cooking motion estimation device 200 may be an information processing device such as a personal computer or a workstation.
  • the cooking motion estimation device 200 includes a control section 202, a storage section 206, and an input/output section 212, and each section of the cooking motion estimation device 200 is communicably connected via an arbitrary communication path. There is.
  • the cooking motion estimation device 200 is connected to other devices via a network 300 so as to be able to communicate with each other.
  • the input/output unit 212 may have a function of performing data input/output (I/O).
  • the input/output unit 212 may be, for example, a key input unit, a touch panel, a control pad (eg, a touch pad, a game pad, etc.), a mouse, a keyboard, a microphone, or the like.
  • the input/output unit 212 may be a display unit (for example, a display configured with a liquid crystal or organic EL, a monitor, a touch panel, etc.) that displays (input/output) information such as application software.
  • the input/output unit 212 may be an audio output unit (for example, a speaker, etc.) that outputs audio information as audio.
  • the input/output unit 212 may be an image input unit (for example, a camera, etc.) that records images (still images and moving images) captured by an image sensor such as a CCD image sensor or a CMOS image sensor as digital data. Further, the input/output unit 212 may be a fingerprint sensor, a camera (for example, an infrared camera, etc.) that can be used for iris authentication or face authentication, and/or a biosensor such as a vein sensor.
  • an image input unit for example, a camera, etc.
  • a camera for example, an infrared camera, etc.
  • a biosensor such as a vein sensor.
  • the storage unit 206 stores various databases, tables, and/or files.
  • the storage unit 206 stores a computer program that cooperates with the OS to give commands to the CPU to perform various processes.
  • the storage unit 206 is a storage means such as RAM, ROM, HDD, and/or SSD, and stores various databases and tables.
  • the storage unit 206 includes a video database 206a, a model database 206b, and a cooking database 206c.
  • the video database 206a stores videos.
  • the video database 206a may store cooking behavior videos of each user.
  • the cooking action video may be set in association with attribute data indicating the user's attributes.
  • attributes include degree of cooking skill to identify whether one is good at cooking or not good at cooking, age, gender, presence or absence of various cooking skills, presence or absence of product usage experience, and cooking behavior characteristics (for example, frying vegetables in one meal) (or dividing the stir-fried vegetables into two meals, etc.), and/or the tendency of responses to various questionnaires.
  • the cooking action video may be a video recording the user's cooking from the side in any kitchen including the home kitchen of each user. Further, the cooking action video may be one shot by the terminal device 100.
  • the model database 206b stores various machine learning models.
  • the model database 206b uses hand video frames in which a plurality of hand movements during cooking are recorded as teacher data, inputs as video frames constituting a cooking action video, and outputs a posture recognition model as a hand region. You may remember it.
  • the model database 206b stores an object recognition model whose training data is a cooking utensil video frame in which a plurality of cooking utensils are recorded, whose input is a video frame constituting a cooking action video, and whose output is a cooking utensil area. It's okay.
  • the model database 206b stores a cooking motion estimation model that is a machine learning model that uses cooking videos with labeled hand regions as training data, hand regions and cooking utensil regions as explanatory variables, and cooking motions as an objective variable. It's okay.
  • the cooking database 206c stores cooking data.
  • the cooking database 206c includes order data, cooking action data, posture recognition technology data, hand area data, object recognition technology data, cooking utensil area data, cooking action data, cooking action classification, cooking time, amount of work, and cooking time.
  • a representative value, a representative work amount value, and/or an outlier value may be stored.
  • the control unit 202 is a CPU or the like that centrally controls the cooking motion estimation device 200.
  • the control unit 202 has an internal memory for storing control programs such as an OS, programs that define various processing procedures, required data, etc., and performs various information processing based on these stored programs. Execute. Functionally, the control unit 202 is separated from a hand estimation unit 202a, a cooking utensil identification unit 202b, a cooking action estimation unit 202c, a time setting unit 202d, a classification calculation unit 202e, a cooking action acquisition unit 202f, and a representative value acquisition unit 202g. It includes a value specifying section 202h, a food specifying section 202i, and a seasoning specifying section 202j.
  • the hand estimation unit 202a identifies the coordinates of the joint points for each video frame that constitutes the cooking action video, and estimates the hand region that is the coordinate region of the hand.
  • the hand estimating unit 202a may specify the coordinates of the joint points for each video frame that constitutes the cooking action video based on posture recognition technology, and estimate the hand region that is the coordinate region of the hand.
  • the hand estimating unit 202a may use the posture recognition model to specify the coordinates of the joint points for each video frame constituting the cooking action video, and estimate the hand region that is the coordinate region of the hand.
  • the cooking utensil specifying unit 202b specifies a cooking utensil area, which is a coordinate area of the cooking utensil, for each video frame constituting the cooking action video.
  • the cooking utensil identification unit 202b may specify a cooking utensil area, which is a coordinate area of the cooking utensil, for each video frame constituting the cooking action video based on object recognition technology.
  • the cooking utensil identification unit 202b may use the object recognition model to specify a cooking utensil area, which is a coordinate area of the cooking utensil, for each video frame constituting the cooking action video.
  • the cooking utensil identification unit 202b may specify the type of cooking utensil.
  • the cooking motion estimation unit 202c estimates the cooking motion for each video frame based on the type of cooking utensil. Here, if the hand region and the cooking utensil area overlap, the cooking action estimating unit 202c may estimate the cooking action for each video frame based on the type of cooking utensil.
  • the cooking action estimation unit 202c may estimate the cooking action for each video frame from the type of cooking utensil using the cooking action estimation model. Further, the cooking motion estimation unit 202c may estimate the cooking motion for each video frame based on the type of food when the hand region and the food region overlap, or when the cooking utensil region and the food material region overlap. Furthermore, when the hand region and the seasoning region overlap, the cooking motion estimating unit 202c may estimate the cooking motion for each video frame based on the type of seasoning.
  • the time setting unit 202d sets the elapsed time in association with the video frame.
  • the time setting unit 202d may acquire cooking operation order data based on the cooking operation for each video frame.
  • the category calculation unit 202e calculates the cooking time and work amount for each cooking operation category that identifies the characteristics of the cooking operation.
  • the classification calculation unit 202e may calculate the cooking time and work amount for each cooking action classification that identifies the characteristics of the cooking action based on the cooking action for each video frame.
  • the classification calculation unit 202e may calculate the cooking time and work amount for each attribute and cooking operation classification based on the attribute data and the cooking operation for each video frame.
  • the cooking behavior acquisition unit 202f acquires the user's cooking behavior data.
  • the cooking behavior acquisition unit 202f may acquire the user's cooking behavior data based on the cooking time and amount of work for each cooking operation category, and the order data. Further, the cooking behavior acquisition unit 202f may output (display) cooking behavior data.
  • the representative value acquisition unit 202g acquires the cooking time representative value and the workload representative value for each cooking operation category.
  • the representative value acquisition unit 202g may acquire the representative cooking time value and the representative amount of work for each cooking action category based on the cooking time and work amount for each cooking action category of all users.
  • the representative value may be an average value, a median value, or the like.
  • the outlier identification unit 202h identifies a cooking action video in which a cooking operation with an outlier cooking time and/or work amount is recorded.
  • the outlier identification unit 202h identifies a cooking action video in which a cooking operation with an outlier cooking time and/or work amount is recorded based on the cooking time representative value and/or work amount representative value. It's okay.
  • the food identifying unit 202i identifies a food region, which is a coordinate region of the food, for each video frame constituting the cooking action video.
  • the food identifying unit 202i may identify a food region, which is a coordinate region of food, for each video frame constituting the cooking action video based on object recognition technology or image region division technology for video frames. good.
  • the food identifying unit 202i may estimate intake nutrients from the food.
  • the seasoning identifying unit 202j identifies a seasoning region, which is a coordinate region of a seasoning, for each video frame that constitutes a cooking action video.
  • the seasoning specifying unit 202j may specify the seasoning area, which is the coordinate area of the seasoning, for each video frame forming the cooking action video based on object recognition technology.
  • FIG. 2 is a flowchart illustrating an example of the cooking motion estimation process in this embodiment.
  • the hand estimation unit 202a of the cooking motion estimation device 200 calculates joint points for each video frame constituting the cooking behavior video of each user stored in the video database 206a, based on posture recognition technology.
  • the coordinates are specified, and the hand area, which is the coordinate area of the hand, is estimated (step SA-1).
  • the cooking utensil identification unit 202b of the cooking action estimation device 200 determines the coordinate area of the cooking utensil for each video frame constituting the cooking action video of each user stored in the video database 206a.
  • the cooking utensil area and the type of cooking utensil are specified (step SA-2).
  • the cooking action estimating unit 202c of the cooking action estimating device 200 estimates the cooking action for each video frame based on the type of cooking utensil (step SA-3).
  • the time setting unit 202d of the cooking motion estimation device 200 sets the elapsed time in association with the video frame (step SA-4).
  • the time setting unit 202d of the cooking operation estimation device 200 obtains cooking operation order data based on the cooking operation for each video frame (step SA-5).
  • the category calculation unit 202e of the cooking operation estimation device 200 calculates the cooking time and work amount for each cooking skill level and each cooking operation category based on the attribute data and the cooking operation for each video frame ( Step SA-6).
  • the cooking behavior acquisition unit 202f of the cooking behavior estimation device 200 acquires the user's cooking behavior data based on the cooking time and work amount for each cooking behavior category, and the order data, and transmits the cooking behavior data to the input/output unit. 212 (step SA-7).
  • the representative value acquisition unit 202g of the cooking operation estimation device 200 acquires the representative value of cooking time and the representative value of workload for each cooking operation category based on the cooking time and workload for each cooking operation category of all users. (Step SA-8).
  • the outlier identifying unit 202h of the cooking operation estimation device 200 determines, based on the cooking time representative value and/or the workload representative value, the cooking operation in which the cooking operation with the outlier cooking time and/or workload is recorded.
  • the action video is identified (step SA-9), and the process ends.
  • FIGS. 3 to 7 are diagrams illustrating an example of the cooking motion estimation process in this embodiment.
  • the cooking action video is input
  • the body movement estimation module using AI identifies the joint coordinates of the whole body and the hand
  • the cooking utensil detection module uses AI.
  • a process of specifying the category and coordinates of the cooking utensil and outputting the cooking behavior category using the cooking behavior determination module is executed.
  • a cooking utensil image in which a plurality of cooking utensils such as knives, chopsticks, spatulas, tongs, and scissors are recorded is created as learning data, and the cooking utensil area is We are building an object recognition model that is a machine learning model that outputs.
  • accuracy calculation in this embodiment may be performed by the Benjamini-Hochberg method using False Discovery Rate.
  • the output results are uploaded to the cloud by performing AI analysis. is output above.
  • Cooking behavior is determined based on the output data using a predetermined algorithm.
  • the cooking behavior determination process may be performed using not only cooking videos taken by HUT in each user's home kitchen but also cooking videos taken by CLT (Central Location Test) in the same standard kitchen. good.
  • FIGS. 8 to 10 are diagrams showing examples of cooking behavior analysis results in this embodiment.
  • the cooking behavior in each user's home kitchen is quantified for double-pot meat cooking in which cabbage is stir-fried in two batches, and double-pot meat cooking in which cabbage is stir-fried in one batch.
  • the average cooking time of the stir-frying process from about 100 home cooks was approximately 7 minutes 45 seconds for one time of stir-frying cabbage; Second time: Approximately 8 and a half minutes. In this way, in this embodiment, the average cooking behavior pattern of consumers can be grasped numerically.
  • FIG. 9 in this embodiment, by analyzing outliers, the cooking behavior of double-pot meat cooking in which cabbage is stir-fried in two batches and double-pot meat cooking in which cabbage is stir-fried in one batch is determined. You can check the behavior that is the issue. That is, as shown in FIG. 9, in this embodiment, (videos of) people whose actions were extreme are extracted, and the actions of these people can be confirmed.
  • Figure 9 shows the results regarding the cooking time of the stir-frying process and the amount of work in the stir-frying process, and the average value is shown as a bar, and each point shows the amount of work required for each individual.
  • the person who took the longest cooking time when frying twice, the person who took the shortest cooking time, and the top 3 people with the largest amount of work are identified as outliers.
  • the three people who worked a lot were moving the ingredients most of the time during stir-frying. It can be assumed that this was done by the three people who had a heavy workload and were concerned about the food being burnt.
  • the person who took the longest stir-fry time found that the finished cabbage and peppers were soft. This suggests that it was difficult to know the end point of the stir-fry, or that they preferred a softer finish.
  • a stratified analysis of cooking time between a group of good cookers and a group of poor cookers is performed, and comparison results are obtained.
  • the people who were good at cooking when the frying process was compared between the people who were good at cooking and the people who were not good at cooking, the people who were not good at cooking showed a significant difference in the cooking time for the cutting process. You can see that it is getting longer.
  • stratified analysis based on demographics and the like becomes possible, and cooking tasks can be extracted from a new perspective.
  • estimation may be performed using machine learning by inputting a feature vector in which feature amounts for each frame are arranged in time series.
  • learning may be performed without using time information of input feature vectors, or learning may be performed using time information and a time series model.
  • the output layer may be trained as a model that performs regression to the estimated cooking action category, or a model that performs a binary judgment on whether or not the action is the action may be trained for each estimated cooking action category. good.
  • Models that do not use time information include deep learning models such as SVM (Support Vector Machine), convolutional neural networks, and Transformer; models that use time information include LSTM (Long Short-Term Memory) and Transformer.
  • a deep learning model such as the following can be used.
  • As the teacher data data obtained by manually adding correct answer labels to independently acquired cooking videos may be used.
  • FIG. 11 is a diagram showing an example of image region division in this embodiment.
  • either one of the object detection algorithm similar to the cooking utensil identification shown in FIG. 6 and the area segmentation (Semantic Segmentation) algorithm shown in FIG. 11 is used, or two methods are used.
  • the object detection algorithm similar to the cooking utensil identification shown in FIG. 6 and the area segmentation (Semantic Segmentation) algorithm shown in FIG. 11
  • two methods are used.
  • these in combination to recognize food ingredients and estimate the nutrients ingested, it can be used to identify nutrients (groups) that are likely to be deficient and encourage users to consume those nutrients (groups).
  • food is recognized mainly by its appearance (for example, shape, size, color, etc.), and by recognizing the food to be used, it is possible to determine what kind of nutrients and how much should be taken into the finished meal by cooking. This makes it possible to estimate whether it is possible.
  • seasonings are recognized mainly from their appearance (for example, shape, size, color, etc.). Furthermore, in this embodiment, by combining object detection technology and OCR (Optical Character Reader), seasonings with similar appearances are recognized separately (for example, seasonings with similar appearances are recognized separately).
  • FIG. 12 is a diagram illustrating an example of the cooking behavior analysis process using the microwave-specific seasoning according to the present embodiment.
  • FIG. 12 is a diagram illustrating an example of cooking behavior analysis processing in this embodiment.
  • the subsequent time periods are determined as three processes: "preparation (before heating),” “microwave heating/steaming,” and “plating (after heating).”
  • the time period determined to be ⁇ preparation (before heating)'' is determined to be ⁇ putting ingredients in the pouch'', and ⁇ (3)
  • the time period determined as ⁇ Plate (after heating)'' is determined as ⁇ Remove'', and (4)
  • the time period that overlaps with the region and the time period determined as "preparation (before heating)” is determined to be “kneading", and (4) the time period determined as "cutting” is determined as the area of the knife.
  • all or part of the processes described as being performed automatically can be performed manually, or all of the processes described as being performed manually can be performed manually.
  • some of the steps can be performed automatically using known methods.
  • each illustrated component is functionally conceptual, and does not necessarily need to be physically configured as illustrated.
  • the cooking operation estimation device 200 etc., especially each processing function performed by the control unit, all or any part of the processing functions are implemented by a CPU and a program interpreted and executed by the CPU. Alternatively, it may be realized as hardware using wired logic.
  • the program is recorded on a non-temporary computer-readable recording medium containing programmed instructions for causing the information processing device to execute the processing described in this embodiment, and is stored in the terminal device 100 as necessary. be read mechanically. That is, a storage unit such as a ROM or an HDD (Hard Disk Drive) stores a computer program that cooperates with the OS to give instructions to the CPU and perform various processes. This computer program is executed by being loaded into the RAM, and constitutes a control unit in cooperation with the CPU.
  • this computer program may be stored in an application program server connected to the terminal device 100, the cooking motion estimation device 200, etc. via an arbitrary network 300, and may be stored in whole or in part as necessary. It is also possible to download.
  • a program for executing the processing described in this embodiment may be stored in a non-temporary computer-readable recording medium, or may be configured as a program product.
  • this "recording medium” refers to memory cards, USB (Universal Serial Bus) memory, SD (Secure Digital) cards, flexible disks, magneto-optical disks, ROMs, EPROMs (Erasable Programmable Read Only). Memory), EEPROM (registration) Trademark) (Electrically Erasable and Programmable Read Only Memory), CD-ROM (Compact Disk Read Only Memory), MO (Ma gneto-Optical disc), DVD (Digital Versatile Disk), Blu-ray (registered trademark) Disc, etc. shall include any “portable physical medium”.
  • a "program” is a data processing method written in any language or writing method, and does not matter in the form of source code or binary code. Note that a "program” is not necessarily limited to a unitary structure, but may be distributed as multiple modules or libraries, or may work together with separate programs such as an OS to achieve its functions. Including things. Note that well-known configurations and procedures can be used for the specific configuration and reading procedure for reading the recording medium in each device shown in this embodiment, and the installation procedure after reading.
  • the various databases stored in the storage unit are storage devices such as memory devices such as RAM and ROM, fixed disk devices such as hard disks, flexible disks, and optical disks, and are used for various processing and website provision. Stores programs, tables, databases, web page files, etc.
  • the terminal device 100, the cooking motion estimation device 200, etc. may be configured as an information processing device such as a known personal computer or a workstation, or may be configured as the information processing device to which any peripheral device is connected. It's okay. Further, the terminal device 100, the cooking motion estimation device 200, etc. may be realized by installing software (including programs, data, etc.) that causes the devices to realize the processing described in this embodiment.
  • dispersion and integration of devices is not limited to what is shown in the diagram, and all or part of them can be functionally or physically divided into arbitrary units according to various additions or functional loads. It can be configured in a distributed/integrated manner. That is, the embodiments described above may be implemented in any combination, or the embodiments may be implemented selectively.
  • the present invention is useful in the food industry and the information technology industry that produces and provides application software such as recipe sites.

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

姿勢認識技術に基づいて、調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定し、物体認識技術に基づいて、調理行動動画を構成する動画フレーム毎に、調理器具の座標領域である調理器具領域を特定し、手領域と調理器具領域とが重なる場合、調理器具の種類から動画フレーム毎の調理動作を推定する。

Description

調理動作推定装置、調理動作推定方法、および、調理動作推定プログラム
 本発明は、調理動作推定装置、調理動作推定方法、および、調理動作推定プログラムに関する。
 特許文献1には、レンジフードに固定されたカメラでの撮像により、調理動作を含む調理工程全体をとらえたレシピを作成する技術が開示されている。
 また、特許文献2には、調理風景を撮影した映像をから、スーパーマーケット等の顧客が食材売り場で閲覧するのに適した短時間の動画を生成する技術が開示されている。
 また、特許文献3には、ユーザがカメラによって上方から撮影した調理中の映像のみを用いて、その食材または調味料の使用量を推定することができる技術が開示されている。
 また、特許文献4には、キッチンに固定された2台のカメラを用いて正面から撮影した調理中の映像から、ユーザの眼球の位置をもとに視線方向を認識し、ユーザの現在位置、身体の向き、視線方向から作業内容を推定する技術が開示されている。
特開2021-140711号公報 特許第6391078号公報 特開2020-135417号公報 特開2005-284408号公報
 しかしながら、従来の発明においては、姿勢認識技術によるヒトの動きの認識、および、物体認識技術による調理器具の認識を組み合わせて調理動作を捉えることができないという課題があった。
 本発明は、上記問題点に鑑みてなされたものであって、動画フレーム毎の姿勢認識により認識した関節点の座標から推定した手の領域と、物体認識により認識した調理器具の領域とが重なる場合、当該調理器具を使用しているときと判定し、使用調理器具の種類から調理動作を推定することができる調理動作推定装置、調理動作推定方法、および、調理動作推定プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、記憶部と制御部とを備えた調理動作推定装置であって、前記記憶部は、各ユーザの調理行動動画を記憶する動画データベース、を備え、前記制御部は、姿勢認識技術に基づいて、前記調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する手推定部と、物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する調理器具特定部と、前記手領域と前記調理器具領域とが重なる場合、前記調理器具の種類から前記動画フレーム毎の調理動作を推定する調理動作推定部と、を備えたことを特徴とする。
 また、本発明に係る調理動作推定装置は、前記制御部は、前記動画フレームに経過時間を紐付けて設定する時間設定部と、前記動画フレーム毎の前記調理動作に基づいて、前記調理動作の特徴を識別する調理動作区分毎の調理時間および作業量を算出する区分算出部と、を更に備えたことを特徴とする。
 また、本発明に係る調理動作推定装置において、前記制御部は、全ての前記ユーザの前記調理動作区分毎の前記調理時間および前記作業量に基づいて、前記調理動作区分毎の調理時間代表値および作業量代表値を取得する代表値取得部、を更に備えたことを特徴とする。
 また、本発明に係る調理動作推定装置において、前記制御部は、前記調理時間代表値および/または前記作業量代表値に基づいて、外れ値となる前記調理時間および/または前記作業量の前記調理動作が記録されている前記調理行動動画を特定する外れ値特定部、を更に備えたことを特徴とする。
 また、本発明に係る調理動作推定装置において、前記調理行動動画は、前記ユーザの属性を示す属性データが紐付けて設定され、前記区分算出部は、前記属性データ、および、前記動画フレーム毎の前記調理動作に基づいて、前記属性毎、且つ、前記調理動作区分毎の前記調理時間および前記作業量を算出することを特徴とする。
 また、本発明に係る調理動作推定装置において、前記時間設定部は、更に、前記動画フレーム毎の前記調理動作に基づいて、前記調理動作の順序データを取得し、前記制御部は、前記調理動作区分毎の前記調理時間および前記作業量、ならびに、前記順序データに基づいて、前記ユーザの調理行動データを取得する調理行動取得部、を更に備えたことを特徴とする。
 また、本発明に係る調理動作推定装置において、前記記憶部は、複数の調理中の手の動きが記録された手動画フレームを教師データとし、入力を前記調理行動動画を構成する前記動画フレームとし、出力を前記手領域とする姿勢認識モデルを記憶するモデルデータベース、を更に備え、前記手推定部は、前記姿勢認識モデルを用いて、前記調理行動動画を構成する前記動画フレーム毎に、前記関節点の座標を特定し、前記手の座標領域である前記手領域を推定することを特徴とする。
 また、本発明に係る調理動作推定装置において、前記記憶部は、複数の前記調理器具が記録された調理器具動画フレームを教師データとし、入力を前記調理行動動画を構成する前記動画フレームとし、出力を前記調理器具領域とする物体認識モデルを記憶するモデルデータベース、を更に備え、前記調理器具特定部は、前記物体認識モデルを用いて、前記調理行動動画を構成する前記動画フレーム毎に、前記調理器具の座標領域である前記調理器具領域を特定することを特徴とする。
 また、本発明に係る調理動作推定装置において、前記属性は、料理得意、または、料理不得意を識別するための料理得意度合であることを特徴とする。
 また、本発明に係る調理動作推定装置において、前記調理行動動画は、前記各ユーザの家庭のキッチンを含む任意のキッチンでの当該ユーザの調理を側面から記録した動画であることを特徴とする。
 また、本発明に係る調理動作推定装置において、前記記憶部は、前記手領域をラベリングした調理動画を教師データとし、前記手領域および前記調理器具領域を説明変数とし、前記調理動作を目的変数とする機械学習モデルである調理動作推定モデルを記憶するモデル記憶手段、を更に備え、前記調理動作推定手段は、前記手領域と前記調理器具領域とが重なる場合、前記調理動作推定モデルを用いて、前記調理器具の種類から前記動画フレーム毎の前記調理動作を推定することを特徴とする。
 また、本発明に係る調理動作推定装置において、前記制御部は、前記物体認識技術、または、前記動画フレームに対する画像領域分割技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、食材の座標領域である食材領域を特定する食材特定手段、を更に備えたことを特徴とする。
 また、本発明に係る調理動作推定装置において、前記食材特定手段は、更に、前記食材から、摂取栄養素を推定することを特徴とする。
 また、本発明に係る調理動作推定装置において、前記調理動作推定手段は、更に、前記手領域と前記食材領域とが重なる場合、または、前記調理器具領域と前記食材領域とが重なる場合、前記食材の種類から前記動画フレーム毎の前記調理動作を推定することを特徴とする。
 また、本発明に係る調理動作推定装置において、前記制御部は、前記物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調味料の座標領域である調味料領域を特定する調味料特定手段、を更に備えたことを特徴とする。
 また、本発明に係る調理動作推定装置において、前記調理動作推定手段は、更に、前記手領域と前記調味料領域とが重なる場合、前記調味料の種類から前記動画フレーム毎の前記調理動作を推定することを特徴とする。
 また、本発明に係る調理動作推定方法は、記憶部と制御部とを備えた調理動作推定装置に実行させるための調理動作推定方法であって、前記記憶部は、各ユーザの調理行動動画を記憶する動画データベース、を備え、前記制御部で実行させる、姿勢認識技術に基づいて、前記調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する手推定ステップと、物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する調理器具特定ステップと、前記手領域と前記調理器具領域とが重なる場合、前記調理器具の種類から前記動画フレーム毎の調理動作を推定する調理動作推定ステップと、を含むことを特徴とする。
 また、本発明に係る調理動作推定プログラムは、記憶部と制御部とを備えた調理動作推定装置に実行させるための調理動作推定プログラムであって、前記記憶部は、各ユーザの調理行動動画を記憶する動画データベース、を備え、前記制御部において、姿勢認識技術に基づいて、前記調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する手推定ステップと、物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する調理器具特定ステップと、前記手領域と前記調理器具領域とが重なる場合、前記調理器具の種類から前記動画フレーム毎の調理動作を推定する調理動作推定ステップと、を実行させることを特徴とする。
 本発明によれば、調理行動の観察に観察者の主観によらない指標を導入するとともに、行動観察の手間を減らし、多量の消費者を対象とする調査を実現することが可能となるという効果を奏する。また、本発明によれば、行動動画の撮影は消費者自身のスマートフォン等の端末を用いて消費者自身によって行うことも可能であるため、特別な撮影設備や観察者の消費者家庭への訪問が不要となるという効果を奏する。また、本発明によれば、消費者の撮影した調理動画から消費者の調理行動の客観的・定量的な指標を提供することができるという効果を奏する。また、本発明によれば、調理動作区分毎の時間と作業量とを定量的に評価できることにより、ユーザが負担に感じる調理中の行動を抽出でき、特徴的な行動を行っているユーザを特定できるという効果を奏する。また、本発明によれば、俯瞰ではなく横からの撮像の動画像を使用することにより、例えば、包丁で食材を切る際の手の上下動を適切に捉えることが可能になるという効果を奏する。これにより、本発明によれば、調理動作(工程)毎の作業量を適切に見積もできるという効果を奏する。また、本発明によれば、動画フレーム毎の姿勢認識により認識した関節点の座標から推定した手の座標領域と、物体認識により認識した調理器具の領域とが重なる時を、当該調理器具を使用している時と判定し、使用する調理器具の種類から調理動作を推定することができるという効果を奏する。また、本発明によれば、消費者が自身で撮影した調理動画データから、動画の各フレームにおける人物の姿勢を認識し各関節点の座標を抽出し、動画の各フレームにおける調理器具を認識し調理器具の種類およびその座標を抽出し、抽出したフレーム毎の関節点データおよび調理器具データに基づいて、調理工程を分類し、分類した調理工程の時間、順序、作業量等の調理行動データを作成することができるという効果を奏する。
図1は、本実施形態における調理動作推定装置の構成の一例を示すブロック図である。 図2は、本実施形態における調理動作推定処理の一例を示すフローチャートである。 図3は、本実施形態における調理動作推定処理の一例を示す図である。 図4は、本実施形態における調理動作推定処理の一例を示す図である。 図5は、本実施形態における調理動作推定処理の一例を示す図である。 図6は、本実施形態における調理動作推定処理の一例を示す図である。 図7は、本実施形態における調理動作推定処理の一例を示す図である。 図8は、本実施形態における調理行動分析結果の一例を示す図である。 図9は、本実施形態における調理行動分析結果の一例を示す図である。 図10は、本実施形態における調理行動分析結果の一例を示す図である。 図11は、本実施形態における画像領域分割の一例を示す図である。 図12は、本実施形態における調理行動の解析処理の一例を示す図である。
 本発明の実施形態を図面に基づいて詳細に説明する。なお、本発明は本実施形態により限定されるものではない。
[1.概要]
 まず、本発明の概要を説明する。
 消費者の調理体験を調査する際、消費者の行動を観察する手法が用いられるが、行動観察調査は、観察者の主観の影響が大きく、一般的に、行動動画の撮影を行った上で、複数人で観察を行う等偏った結果のみが抽出されないような工夫・手間が必要となる。一方、多様化が急速に進む消費者のニーズに応える製品・サービスを提供するには、多様な消費者を対象に迅速に調査することが求められている。
 ここで、従来の行動観察手法においては、会場調査・訪問観察により、目視での行動観察を行うことで、調理方法の課題を確認し、新たな調理ディレクションを開発していたが、作業負荷が大きいため、多人数の調査が困難であり、定性的な解析しかできなかった。
 そこで、本実施形態においは、被験者の自宅にて、AI(Artificial Intelligence)活用による行動観察の自動化により、調理行動データを取得することで、作業負荷を下げ、多人数の調査を可能とし、定量的な解析を可能とする仕組みを提供している。
[2.調理動作推定システムの構成]
 本実施形態に係る調理動作推定システムは、任意の単位で機能的または物理的に分散・統合して(スタンドアローン型またはシステム型でも)構成することができる。本実施形態においては、端末装置100、および、調理動作推定装置200を通信可能に接続した調理動作推定システムの構成の一例について、図1を参照して説明する。図1は、本実施形態における調理動作推定装置200の構成の一例を示すブロック図である。
[端末装置100の構成]
 図1において、端末装置100は、デジタルカメラもしくはWebカメラだけでなく、携帯電話、スマートフォン、タブレット端末、PHSもしくはPDA(Personal Digital Assistants)等の携帯端末、または、一般に市販されるデスクトップ型もしくはノート型のパーソナルコンピュータ等の情報処理装置等であってもよい。
 端末装置100は、制御部102と記憶部106と入出力部112とを備えており、端末装置100が備えている各部は、任意の通信路を介して通信可能に接続されている。
 入出力部112は、動画を含むデータの入出力(I/O)を行う機能を有しており、CCDイメージセンサまたはCMOSイメージセンサ等の撮像素子で撮影した画像(静止画および動画)をデジタルデータとして記録する画像入力部(例えば、カメラ等)である。ここで、入出力部112は、例えば、キー入力部、タッチパネル、コントロールパッド(例えば、タッチパッド、および、ゲームパッド等)、マウス、キーボード、および、マイク等を含んでいてもよい。また、入出力部112は、アプリケーション・ソフトウェア等の(入出力)情報を表示する表示部(例えば、液晶または有機EL等から構成されるディスプレイ、モニタ、および、タッチパネル等)を含んでいてもよい。また、入出力部112は、音声情報を音声として出力する音声出力部(例えば、スピーカ等)を含んでいてもよい。また、入出力部112は、指紋センサ、虹彩認証もしくは顔認証等に利用可能なカメラ(例えば、赤外線カメラ等)、および/または、静脈センサ等の生体センサを含んでいてもよい。
 端末装置100は、他の装置とネットワーク300を介して通信可能に接続し、他の装置とデータを通信する機能を有する。ここで、ネットワーク300は、端末装置100と他の装置とを相互に通信可能に接続する機能を有し、例えば、インターネットおよび/またはLAN(Local Area Network)等である。
 記憶部106には、各種のデータベース、テーブル、および/または、ファイル等が格納される。記憶部106には、OS(Operating System)と協働してCPU(Central Processing Unit)に命令を与えて各種処理を行うためのコンピュータプログラムが記録される。記憶部106として、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、および/または、SSD(Solid State Drive)等を用いることができる。記憶部106は、入出力部112にて記録された画像データ、ネットワーク300を介して受信されたデータ、および/または、入出力部112を介して入力された入力データ等を記憶していてもよい。
 制御部102は、端末装置100を統括的に制御するCPU等である。制御部102は、OS等の制御プログラム・各種の処理手順等を規定したプログラム・所要データ等を格納するための内部メモリを有し、格納されているこれらのプログラムに基づいて種々の情報処理を実行する。例えば、制御部102は、入出力部112にて記録された画像データの取得および画像データに含まれる文字データ(URL等)のデータ読取、ネットワーク300を介したデータ送受信、入出力部112を介して入力された入力データの取得、ならびに、入出力部112でのデータ(画面)表示等の各処理を実行してもよい。
[調理動作推定装置200の構成]
 図1において、調理動作推定装置200は、パーソナルコンピュータ、または、ワークステーション等の情報処理装置であってもよい。調理動作推定装置200は、制御部202と記憶部206と入出力部212とを備えており、調理動作推定装置200が備えている各部は、任意の通信路を介して通信可能に接続されている。調理動作推定装置200は、ネットワーク300を介して、他の装置と相互に通信可能に接続されている。
 入出力部212は、データの入出力(I/O)を行う機能を有していてもよい。ここで、入出力部212は、例えば、キー入力部、タッチパネル、コントロールパッド(例えば、タッチパッド、および、ゲームパッド等)、マウス、キーボード、および、マイク等であってもよい。また、入出力部212は、アプリケーション・ソフトウェア等の(入出力)情報を表示する表示部(例えば、液晶または有機EL等から構成されるディスプレイ、モニタ、および、タッチパネル等)であってもよい。また、入出力部212は、音声情報を音声として出力する音声出力部(例えば、スピーカ等)であってもよい。また、入出力部212は、CCDイメージセンサまたはCMOSイメージセンサ等の撮像素子で撮影した画像(静止画および動画)をデジタルデータとして記録する画像入力部(例えば、カメラ等)であってもよい。また、入出力部212は、指紋センサ、虹彩認証もしくは顔認証等に利用可能なカメラ(例えば、赤外線カメラ等)、および/または、静脈センサ等の生体センサであってもよい。
 記憶部206には、各種のデータベース、テーブル、および/または、ファイル等が格納される。記憶部206には、OSと協働してCPUに命令を与えて各種処理を行うためのコンピュータプログラムが記録される。記憶部206は、RAM、ROM、HDD、および/または、SSD等のストレージ手段であり、各種のデータベースやテーブルを格納する。記憶部206は、機能概念的に、動画データベース206aとモデルデータベース206bと調理データベース206cとを備えている。
 動画データベース206aは、動画を記憶する。ここで、動画データベース206aは、各ユーザの調理行動動画を記憶していてもよい。ここで、調理行動動画は、ユーザの属性を示す属性データが紐付けて設定されていてもよい。ここで、属性は、料理得意もしくは料理不得意を識別するための料理得意度合、年齢、性別、各種調理スキルの有無、製品の使用経験の有無、調理行動特性(例えば、野菜炒めを1回で行う、または、野菜炒めを2回に分ける等)、ならびに/または、各種アンケートに対する回答傾向等であってもよい。また、調理行動動画は、各ユーザの家庭のキッチンを含む任意のキッチンでの当該ユーザの調理を側面から記録した動画であってもよい。また、調理行動動画は、端末装置100にて撮影されたものであってもよい。
 モデルデータベース206bは、各種機械学習モデルを記憶する。ここで、モデルデータベース206bは、複数の調理中の手の動きが記録された手動画フレームを教師データとし、入力を調理行動動画を構成する動画フレームとし、出力を手領域とする姿勢認識モデルを記憶していてもよい。また、モデルデータベース206bは、複数の調理器具が記録された調理器具動画フレームを教師データとし、入力を調理行動動画を構成する動画フレームとし、出力を調理器具領域とする物体認識モデルを記憶していてもよい。
 また、モデルデータベース206bは、手領域をラベリングした調理動画を教師データとし、手領域および調理器具領域を説明変数とし、調理動作を目的変数とする機械学習モデルである調理動作推定モデルを記憶していてもよい。
 調理データベース206cは、調理データを記憶する。ここで、調理データベース206cは、順序データ、調理行動データ、姿勢認識技術データ、手領域データ、物体認識技術データ、調理器具領域データ、調理動作データ、調理動作区分、調理時間、作業量、調理時間代表値、作業量代表値、および/または、外れ値等を記憶していてもよい。
 制御部202は、調理動作推定装置200を統括的に制御するCPU等である。制御部202は、OS等の制御プログラム・各種の処理手順等を規定したプログラム・所要データ等を格納するための内部メモリを有し、格納されているこれらのプログラムに基づいて種々の情報処理を実行する。制御部202は、機能概念的に、手推定部202aと調理器具特定部202bと調理動作推定部202cと時間設定部202dと区分算出部202eと調理行動取得部202fと代表値取得部202gと外れ値特定部202hと食材特定部202iと調味料特定部202jとを備えている。
 手推定部202aは、調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する。ここで、手推定部202aは、姿勢認識技術に基づいて、調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定してもよい。また、手推定部202aは、姿勢認識モデルを用いて、調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定してもよい。
 調理器具特定部202bは、調理行動動画を構成する動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する。ここで、調理器具特定部202bは、物体認識技術に基づいて、調理行動動画を構成する動画フレーム毎に、調理器具の座標領域である調理器具領域を特定してもよい。また、調理器具特定部202bは、物体認識モデルを用いて、調理行動動画を構成する動画フレーム毎に、調理器具の座標領域である調理器具領域を特定してもよい。また、調理器具特定部202bは、調理器具の種類を特定してもよい。
 調理動作推定部202cは、調理器具の種類から動画フレーム毎の調理動作を推定する。ここで、調理動作推定部202cは、手領域と調理器具領域とが重なる場合、調理器具の種類から動画フレーム毎の調理動作を推定してもよい。
 また、調理動作推定部202cは、手領域と調理器具領域とが重なる場合、調理動作推定モデルを用いて、調理器具の種類から動画フレーム毎の調理動作を推定してもよい。また、調理動作推定部202cは、手領域と食材領域とが重なる場合、または、調理器具領域と食材領域とが重なる場合、食材の種類から動画フレーム毎の調理動作を推定してもよい。また、調理動作推定部202cは、手領域と調味料領域とが重なる場合、調味料の種類から動画フレーム毎の調理動作を推定してもよい。
 時間設定部202dは、動画フレームに経過時間を紐付けて設定する。ここで、時間設定部202dは、動画フレーム毎の調理動作に基づいて、調理動作の順序データを取得してもよい。
 区分算出部202eは、調理動作の特徴を識別する調理動作区分毎の調理時間および作業量を算出する。ここで、区分算出部202eは、動画フレーム毎の調理動作に基づいて、調理動作の特徴を識別する調理動作区分毎の調理時間および作業量を算出してもよい。また、区分算出部202eは、属性データ、および、動画フレーム毎の調理動作に基づいて、属性毎、且つ、調理動作区分毎の調理時間および作業量を算出してもよい。
 調理行動取得部202fは、ユーザの調理行動データを取得する。ここで、調理行動取得部202fは、調理動作区分毎の調理時間および作業量、ならびに、順序データに基づいて、ユーザの調理行動データを取得してもよい。また、調理行動取得部202fは、調理行動データを出力(表示)させてもよい。
 代表値取得部202gは、調理動作区分毎の調理時間代表値および作業量代表値を取得する。ここで、代表値取得部202gは、全てのユーザの調理動作区分毎の調理時間および作業量に基づいて、調理動作区分毎の調理時間代表値および作業量代表値を取得してもよい。ここで、代表値は、平均値、または、中央値等であってもよい。
 外れ値特定部202hは、外れ値となる調理時間および/または作業量の調理動作が記録されている調理行動動画を特定する。ここで、外れ値特定部202hは、調理時間代表値および/または作業量代表値に基づいて、外れ値となる調理時間および/または作業量の調理動作が記録されている調理行動動画を特定してもよい。
 食材特定部202iは、調理行動動画を構成する動画フレーム毎に、食材の座標領域である食材領域を特定する。ここで、食材特定部202iは、物体認識技術、または、動画フレームに対する画像領域分割技術に基づいて、調理行動動画を構成する動画フレーム毎に、食材の座標領域である食材領域を特定してもよい。また、食材特定部202iは、食材から、摂取栄養素を推定してもよい。
 調味料特定部202jは、調理行動動画を構成する動画フレーム毎に、調味料の座標領域である調味料領域を特定する。ここで、調味料特定部202jは、物体認識技術に基づいて、調理行動動画を構成する動画フレーム毎に、調味料の座標領域である調味料領域を特定してもよい。
[3.調理動作推定処理]
 本実施形態に係る調理動作推定処理の一例について、図2から図12を参照して説明する。図2は、本実施形態における調理動作推定処理の一例を示すフローチャートである。
 図2に示すように、調理動作推定装置200の手推定部202aは、姿勢認識技術に基づいて、動画データベース206aに記憶された各ユーザの調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する(ステップSA-1)。
 そして、調理動作推定装置200の調理器具特定部202bは、物体認識技術に基づいて、動画データベース206aに記憶された各ユーザの調理行動動画を構成する動画フレーム毎に、調理器具の座標領域である調理器具領域および調理器具の種類を特定する(ステップSA-2)。
 そして、調理動作推定装置200の調理動作推定部202cは、手領域と調理器具領域とが重なる場合、調理器具の種類から動画フレーム毎の調理動作を推定する(ステップSA-3)。
 そして、調理動作推定装置200の時間設定部202dは、動画フレームに経過時間を紐付けて設定する(ステップSA-4)。
 そして、調理動作推定装置200の時間設定部202dは、動画フレーム毎の調理動作に基づいて、調理動作の順序データを取得する(ステップSA-5)。
 そして、調理動作推定装置200の区分算出部202eは、属性データ、および、動画フレーム毎の調理動作に基づいて、料理得意度合毎、且つ、調理動作区分毎の調理時間および作業量を算出する(ステップSA-6)。
 そして、調理動作推定装置200の調理行動取得部202fは、調理動作区分毎の調理時間および作業量、ならびに、順序データに基づいて、ユーザの調理行動データを取得し、調理行動データを入出力部212に表示させる(ステップSA-7)。
 そして、調理動作推定装置200の代表値取得部202gは、全てのユーザの調理動作区分毎の調理時間および作業量に基づいて、調理動作区分毎の調理時間代表値および作業量代表値を取得する(ステップSA-8)。
 そして、調理動作推定装置200の外れ値特定部202hは、調理時間代表値および/または作業量代表値に基づいて、外れ値となる調理時間および/または作業量の調理動作が記録されている調理行動動画を特定し(ステップSA-9)、処理を終了する。
 ここで、図3から図7を参照して、本実施形態における調理動作推定処理の具体例について説明する。図3から図7は、本実施形態における調理動作推定処理の一例を示す図である。
 図3に示すように、本実施形態におけるホームユース調査(HUT)調理動画の行動解析においては、撮影条件がばらつく中でも共通の判定基準として「(ユーザが)用いる調理器具」を採用し、例えば、「手の動き」と「包丁」とが重なれば「切る」行動を、「箸」または「へら」と「トング」とが重なれば「炒める」行動をしているとみなしている。ここで、本実施形態における調理行動判定アルゴリズムには、「体の動きAI」に加えて調理器具を認識する「調理器具AI」が必要であり、「調理器具AI」については、従来のAIでは調理器具をきちんと認識することが困難であったため、本実施形態においては、調理動画から2万点を超えるデータセットを作成し学習させることで、図3に示すように、調理器具が認識できるようになった。また、本実施形態においては、「切る」および「炒める」の2つの調理行動を特定できるだけでなく、商品のパッケージや蛇口等を学習させることで、「商品を持っている」および「洗い物をしている」といったより細かな調理行動の特定も可能としている。
 また、図4に示すように、本実施形態においては、調理行動動画を入力とし、AIを使用した体の動き推定モジュールにより全身および手の関節座標を特定し、AIを使用した調理器具検出モジュールにより調理器具のカテゴリおよび座標を特定し、調理行動判定モジュールを用いた調理行動カテゴリを出力する処理が実行される。
 また、図5および図6に示すように、本実施形態においては、包丁・箸・へら・トング・ハサミ等の複数の調理器具が記録された調理器具画像を学習データとして作成し、調理器具領域を出力する機械学習モデルである物体認識モデルを構築している。ここで、図6に示すように、本実施形態における精度算出としては、False Discovery Rateを用いたBenjamini-Hochberg法等により行ってもよい。
 また、図7に示すように、本実施形態においては、調理動作推定処理の具体的運用として、収集した調理動画がクラウド上にアップロードされた後、AI解析を実行することにより、出力結果がクラウド上に出力される。出力されたデータに対して、所定のアルゴリズムにより調理行動が判定される。また、本実施形態においては、各ユーザの家庭キッチンでのHUTによる調理動画だけでなく、同一規格キッチンでのCLT(Central Location Test)による調理動画を用いて、調理行動判定処理を実行してもよい。
 また、図8から図10を参照して、本実施形態における調理行動分析結果の一例について説明する。図8から図10は、本実施形態における調理行動分析結果の一例を示す図である。
 図8に示すように、本実施形態においては、各ユーザの自宅キッチンにおける、キャベツを2回に分けて炒めた回鍋肉調理、および、キャベツを1回にまとめて炒めた回鍋肉調理の調理行動の定量化について、「切る」、「炒める」の2つの行動に注目し、その調理時間および作業量を定量化している。ここで、図8に示すように、本実施形態においては、約100名の自宅調理から、炒め工程の調理時間の平均値として、キャベツ炒め1回時:7分45秒程度、および、キャベツ炒め2回時:8分半程度が算出される。このように、本実施形態においては、生活者の平均的な調理行動パターンが数字で把握できる。
 また、図9に示すように、本実施形態においては、外れ値の分析により、キャベツを2回に分けて炒めた回鍋肉調理、および、キャベツを1回にまとめて炒めた回鍋肉調理の調理行動の課題となる行動を確認することができる。すなわち、図9に示すように、本実施形態においては、行動が極端だった人(の動画)が抽出され、これらの人の行動が確認可能となる。ここで、図9には、炒め工程の調理時間、および、炒め工程の作業量についての結果が示されており、バーで平均値が示されており、1つ1つの点で各個人の生データがプロットされているため、本実施形態においては、2回炒め時の調理時間が最長の人、最短の人、および、作業量が多いTop3の5人が外れ値として特定される。そして、本実施形態においては、作業量が多かった3名について、炒め中のほとんどの時間において具材を動かしていたことが確認できた。これは、作業量が多かった3名が、焦げてしまうことを心配しての行動だと推定できる。また、本実施形態においては、炒め時間が最も長かった人について、出来上がりのキャベツ・ピーマンがしんなりしていることが確認できた。これは、炒めの終点が分かりにくかった、または、しんなりした仕上がりが好みだったことを推定可能としている。
 また、図10に示すように、本実施形態においては、調理得意層と調理不得意層との調理時間の層別解析がなされ、比較結果が取得されている。また、図10に示すように、本実施形態においては、炒める工程について、調理得意層と調理不得意層とでの比較したところ、切る工程の調理時間において、調理不得意層の方が有意に長くなっていることが確認できる。このように、本実施形態においては、被験者を多くすることで、デモグラフィック等による層別解析が可能となり、新たな切り口での調理課題の抽出ができるようになる。
 更に、本実施形態においては、調理動作推定において、フレーム毎の特徴量を時系列に並べた特徴ベクトルを入力として、機械学習を用いて推定してもよい。ここで、機械学習の手法としては、入力する特徴ベクトルの時間情報を用いずに学習してもよく、また、時間情報を用いて、時系列モデルを用いて学習してもよい。いずれの場合にも出力層において調理動作推定カテゴリへの回帰を行うモデルとして学習してもよいし、その動作であるか否かを二値判定するモデルを調理動作推定カテゴリ毎に学習してもよい。時間情報を用いない場合のモデルとしては、SVM(Support Vector Machine)や、畳み込みニューラルネットワークやTransformer等の深層学習モデル、時間情報を用いる場合のモデルとしては、LSTM(Long Short-Term Memory)やTransformer等の深層学習モデル等を用いることができる。教師データとしては、独自に取得した調理動画に対して人の手で正解ラベルを付けたデータを使用してもよい。
 また、図6および図11を参照して、本実施形態における食材識別処理の一例について説明する。図11は、本実施形態における画像領域分割の一例を示す図である。
 本実施形態においては、図6に示す調理器具特定と同様の物体検出のアルゴリズム、および、図11に示す領域分割(Semantic Segmentation)のアルゴリズムのいずれか1つの手法を用いて、または、2つの手法を組み合わせて用いて、食材認識し、摂取した栄養素を推定することで、不足すると思われる栄養素(群)を特定し、ユーザにその栄養素(群)の摂取を促すことに活用できる。ここで、本実施形態においては、食材を主に外観(例えば、形、大きさ、色等)により認識し、用いる食材を認識することにより、調理によって完成した食事にどのような栄養素をどのくらい摂取できるのかについて推定することを可能としている。
 また、本実施形態においては、調理器具特定と同様のアルゴリズムを用いて、調味料を認識することにより、調理動作をより詳細に推定することが可能となる。このように、本実施形態においては、物体検出(物体認識)技術により、調理器具以外の食材や調味料を認識することで、調理器具のみを活用した場合よりも詳細な区分で調理動作を推定することが可能となる。また、本実施形態においては、調味料を、主に外観(例えば、形、大きさ、色等)から認識している。また、本実施形態においては、物体検出技術と、OCR(Optical Character Reader:光学文字認識)とを組み合わせることにより、類似する外観の調味料を分けて認識している(例えば、容器に記載された文字から砂糖と塩とを区別して認識し、同一ブランドの商品群から品種を区別して認識している)。また、本実施形態においては、詳細な区分で調理動作を推定することにより、各動作の時間・手間の定量分析が可能となり、より具体的に調理行動を把握・考察することが可能となる。例えば、本実施形態においては、あるレシピの調理における各動作の時間・手間の定量分析から、ユーザの調理スキル、ならびに、類似するレシピの調理にかかる時間および手間を推定することで、ユーザの調理スキルおよび調理に対する心理(かけたい時間および手間、ならびに、かけたいエネルギーおよびコスト等のサステナビリティへの意識)に合わせたレシピおよび調理工程(加熱方法として、ガスもしくはIHを用いるか、または、電子レンジを用いるか等)をリコメンドすることに活用することができる。
 また、図12を参照して、本実施形態における電子レンジ専用調味料を用いた調理行動の解析処理の一例を示す図である。図12は、本実施形態における調理行動の解析処理の一例を示す図である。
 図12に示すように、本実施形態においては、(1)全体の作業のうち電子レンジ専用調味料が認識されている時間帯、8分以上認識されていない時間帯、および、再び認識されて以降の時間帯を、それぞれ「下ごしらえ(加熱前)」、「レンジ加熱・蒸らし」、および、「盛り付け(加熱後)」の3つの工程として判定し、(2)手の領域と、電子レンジ専用調味料の領域と、箸またはトングの領域と、が重なって認識された時間帯のうち、「下ごしらえ(加熱前)」と判定された時間帯を「パウチに食材を入れる」と判定し、「盛り付け(加熱後)」と判定された時間帯を「取り出す」と判定し、(3)「パウチに食材を入れる」と判定された時間帯以降で、電子レンジ専用調味料の領域と、手の領域と、が重なる時間帯、且つ、「下ごしらえ(加熱前)」と判定された時間帯を「もみ込む」と判定し、(4)「切る」と判定された時間帯について、包丁の領域と重なって認識された食材の領域により、「玉ねぎを切る」または「肉を切る」にそれぞれ分けて判定し、(5)手の領域と、箸またはトングの領域と、が重なって認識されるが、手の領域と、電子レンジ専用調味料の領域と、が重ならない時間帯、且つ、「盛り付け(加熱後)」と判定された時間帯を「盛り付ける」と判定し、(6)手の領域と、フォークの領域と、が重なって認識され、且つ、手の領域と、フォークの領域と、が重なってお肉が認識された時間帯を「肉に穴をあける」と判定している。
[4.他の実施形態]
 本発明は、上述した実施形態以外にも、請求の範囲に記載した技術的思想の範囲内において種々の異なる実施形態にて実施されてよいものである。
 例えば、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
 また、本明細書中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
 また、端末装置100および調理動作推定装置200等に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
 例えば、端末装置100および調理動作推定装置200等が備える処理機能、特に制御部にて行われる各処理機能については、その全部または任意の一部を、CPUおよび当該CPUにて解釈実行されるプログラムにて実現してもよく、また、ワイヤードロジックによるハードウェアとして実現してもよい。尚、プログラムは、本実施形態で説明した処理を情報処理装置に実行させるためのプログラム化された命令を含む一時的でないコンピュータ読み取り可能な記録媒体に記録されており、必要に応じて端末装置100に機械的に読み取られる。すなわち、ROMまたはHDD(Hard Disk Drive)等の記憶部等には、OSと協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部を構成する。
 また、このコンピュータプログラムは、端末装置100および調理動作推定装置200等に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
 また、本実施形態で説明した処理を実行するためのプログラムを、一時的でないコンピュータ読み取り可能な記録媒体に格納してもよく、また、プログラム製品として構成することもできる。ここで、この「記録媒体」とは、メモリーカード、USB(Universal Serial Bus)メモリ、SD(Secure Digital)カード、フレキシブルディスク、光磁気ディスク、ROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(登録商標)(Electrically Erasable and Programmable Read Only Memory)、CD-ROM(Compact Disk Read Only Memory)、MO(Magneto-Optical disk)、DVD(Digital Versatile Disk)、および、Blu-ray(登録商標) Disc等の任意の「可搬用の物理媒体」を含むものとする。
 また、「プログラム」とは、任意の言語または記述方法にて記述されたデータ処理方法であり、ソースコードまたはバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OSに代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、本実施形態に示した各装置において記録媒体を読み取るための具体的な構成および読み取り手順ならびに読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
 記憶部に格納される各種のデータベース等は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、および、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラム、テーブル、データベース、および、ウェブページ用ファイル等を格納する。
 また、端末装置100および調理動作推定装置200等は、既知のパーソナルコンピュータまたはワークステーション等の情報処理装置として構成してもよく、また、任意の周辺装置が接続された当該情報処理装置として構成してもよい。また、端末装置100および調理動作推定装置200等は、当該装置に本実施形態で説明した処理を実現させるソフトウェア(プログラムまたはデータ等を含む)を実装することにより実現してもよい。
 更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じてまたは機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。すなわち、上述した実施形態を任意に組み合わせて実施してもよく、実施形態を選択的に実施してもよい。
 本発明は、食品業界、ならびに、レシピサイト等のアプリケーション・ソフトウェアの製作・提供等を行う情報技術業界において有用である。
 100 端末装置
 102 制御部
 106 記憶部
 112 入出力部
 200 調理動作推定装置
 202 制御部
 202a 手推定部
 202b 調理器具特定部
 202c 調理動作推定部
 202d 時間設定部
 202e 区分算出部
 202f 調理行動取得部
 202g 代表値取得部
 202h 外れ値特定部
 202i 食材特定部
 202j 調味料特定部
 206 記憶部
 206a 動画データベース
 206b モデルデータベース
 206c 調理データベース
 212 入出力部
 300 ネットワーク

Claims (18)

  1.  記憶部と制御部とを備えた調理動作推定装置であって、
     前記記憶部は、
     各ユーザの調理行動動画を記憶する動画記憶手段、
     を備え、
     前記制御部は、
     姿勢認識技術に基づいて、前記調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する手推定手段と、
     物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する調理器具特定手段と、
     前記手領域と前記調理器具領域とが重なる場合、前記調理器具の種類から前記動画フレーム毎の調理動作を推定する調理動作推定手段と、
     を備えたことを特徴とする調理動作推定装置。
  2.  前記制御部は、
     前記動画フレームに経過時間を紐付けて設定する時間設定手段と、
     前記動画フレーム毎の前記調理動作に基づいて、前記調理動作の特徴を識別する調理動作区分毎の調理時間および作業量を算出する区分算出手段と、
     を更に備えたことを特徴とする請求項1に記載の調理動作推定装置。
  3.  前記制御部は、
     全ての前記ユーザの前記調理動作区分毎の前記調理時間および前記作業量に基づいて、前記調理動作区分毎の調理時間代表値および作業量代表値を取得する代表値取得手段、
     を更に備えたことを特徴とする請求項2に記載の調理動作推定装置。
  4.  前記制御部は、
     前記調理時間代表値および/または前記作業量代表値に基づいて、外れ値となる前記調理時間および/または前記作業量の前記調理動作が記録されている前記調理行動動画を特定する外れ値特定手段、
     を更に備えたことを特徴とする請求項3に記載の調理動作推定装置。
  5.  前記調理行動動画は、
     前記ユーザの属性を示す属性データが紐付けて設定され、
     前記区分算出手段は、
     前記属性データ、および、前記動画フレーム毎の前記調理動作に基づいて、前記属性毎、且つ、前記調理動作区分毎の前記調理時間および前記作業量を算出することを特徴とする請求項2に記載の調理動作推定装置。
  6.  前記時間設定手段は、
     更に、前記動画フレーム毎の前記調理動作に基づいて、前記調理動作の順序データを取得し、
     前記制御部は、
     前記調理動作区分毎の前記調理時間および前記作業量、ならびに、前記順序データに基づいて、前記ユーザの調理行動データを取得する調理行動取得手段、
     を更に備えたことを特徴とする請求項2に記載の調理動作推定装置。
  7.  前記記憶部は、
     複数の調理中の手の動きが記録された手動画フレームを教師データとし、入力を前記調理行動動画を構成する前記動画フレームとし、出力を前記手領域とする姿勢認識モデルを記憶するモデル記憶手段、
     を更に備え、
     前記手推定手段は、
     前記姿勢認識モデルを用いて、前記調理行動動画を構成する前記動画フレーム毎に、前記関節点の座標を特定し、前記手の座標領域である前記手領域を推定することを特徴とする請求項1に記載の調理動作推定装置。
  8.  前記記憶部は、
     複数の前記調理器具が記録された調理器具動画フレームを教師データとし、入力を前記調理行動動画を構成する前記動画フレームとし、出力を前記調理器具領域とする物体認識モデルを記憶するモデル記憶手段、
     を更に備え、
     前記調理器具特定手段は、
     前記物体認識モデルを用いて、前記調理行動動画を構成する前記動画フレーム毎に、前記調理器具の座標領域である前記調理器具領域を特定することを特徴とする請求項1に記載の調理動作推定装置。
  9.  前記属性は、
     料理得意、または、料理不得意を識別するための料理得意度合であることを特徴とする請求項5に記載の調理動作推定装置。
  10.  前記調理行動動画は、
     前記各ユーザの家庭のキッチンを含む任意のキッチンでの当該ユーザの調理を側面から記録した動画であることを特徴とする請求項1に記載の調理動作推定装置。
  11.  前記記憶部は、
     前記手領域をラベリングした調理動画を教師データとし、前記手領域および前記調理器具領域を説明変数とし、前記調理動作を目的変数とする機械学習モデルである調理動作推定モデルを記憶するモデル記憶手段、
     を更に備え、
     前記調理動作推定手段は、
     前記手領域と前記調理器具領域とが重なる場合、前記調理動作推定モデルを用いて、前記調理器具の種類から前記動画フレーム毎の前記調理動作を推定することを特徴とする請求項1に記載の調理動作推定装置。
  12.  前記制御部は、
     前記物体認識技術、または、前記動画フレームに対する画像領域分割技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、食材の座標領域である食材領域を特定する食材特定手段、
     を更に備えたことを特徴とする請求項1に記載の調理動作推定装置。
  13.  前記食材特定手段は、
     更に、前記食材から、摂取栄養素を推定することを特徴とする請求項12に記載の調理動作推定装置。
  14.  前記調理動作推定手段は、
     更に、前記手領域と前記食材領域とが重なる場合、または、前記調理器具領域と前記食材領域とが重なる場合、前記食材の種類から前記動画フレーム毎の前記調理動作を推定することを特徴とする請求項12に記載の調理動作推定装置。
  15.  前記制御部は、
     前記物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調味料の座標領域である調味料領域を特定する調味料特定手段、
     を更に備えたことを特徴とする請求項1に記載の調理動作推定装置。
  16.  前記調理動作推定手段は、
     更に、前記手領域と前記調味料領域とが重なる場合、前記調味料の種類から前記動画フレーム毎の前記調理動作を推定することを特徴とする請求項15に記載の調理動作推定装置。
  17.  記憶部と制御部とを備えた調理動作推定装置に実行させるための調理動作推定方法であって、
     前記記憶部は、
     各ユーザの調理行動動画を記憶する動画記憶手段、
     を備え、
     前記制御部で実行させる、
     姿勢認識技術に基づいて、前記調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する手推定ステップと、
     物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する調理器具特定ステップと、
     前記手領域と前記調理器具領域とが重なる場合、前記調理器具の種類から前記動画フレーム毎の調理動作を推定する調理動作推定ステップと、
     を含むことを特徴とする調理動作推定方法。
  18.  記憶部と制御部とを備えた調理動作推定装置に実行させるための調理動作推定プログラムであって、
     前記記憶部は、
     各ユーザの調理行動動画を記憶する動画記憶手段、
     を備え、
     前記制御部において、
     姿勢認識技術に基づいて、前記調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する手推定ステップと、
     物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する調理器具特定ステップと、
     前記手領域と前記調理器具領域とが重なる場合、前記調理器具の種類から前記動画フレーム毎の調理動作を推定する調理動作推定ステップと、
     を実行させるための調理動作推定プログラム。
PCT/JP2023/031880 2022-09-01 2023-08-31 調理動作推定装置、調理動作推定方法、および、調理動作推定プログラム WO2024048741A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022139367 2022-09-01
JP2022-139367 2022-09-01

Publications (1)

Publication Number Publication Date
WO2024048741A1 true WO2024048741A1 (ja) 2024-03-07

Family

ID=90097943

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/031880 WO2024048741A1 (ja) 2022-09-01 2023-08-31 調理動作推定装置、調理動作推定方法、および、調理動作推定プログラム

Country Status (1)

Country Link
WO (1) WO2024048741A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005088542A1 (ja) * 2004-03-17 2005-09-22 Matsushita Electric Industrial Co., Ltd. 食材調理操作認識システム及び食材調理操作認識プログラム
JP2018005752A (ja) * 2016-07-07 2018-01-11 株式会社日立システムズ 振る舞い検知システム
JP2021022119A (ja) * 2019-07-26 2021-02-18 日本電気株式会社 監視装置、監視方法、および、プログラム、並びに、監視システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005088542A1 (ja) * 2004-03-17 2005-09-22 Matsushita Electric Industrial Co., Ltd. 食材調理操作認識システム及び食材調理操作認識プログラム
JP2018005752A (ja) * 2016-07-07 2018-01-11 株式会社日立システムズ 振る舞い検知システム
JP2021022119A (ja) * 2019-07-26 2021-02-18 日本電気株式会社 監視装置、監視方法、および、プログラム、並びに、監視システム

Similar Documents

Publication Publication Date Title
US11175790B2 (en) System and method for providing real-time product interaction assistance
RU2699690C2 (ru) Способы и системы для приготовления пищи на роботизированной кухне
RU2668408C2 (ru) Устройства, системы и способы виртуализации зеркала
US9646340B2 (en) Avatar-based virtual dressing room
CN107862018B (zh) 食材烹饪方法的推荐方法及装置
CN107798653B (zh) 一种图像处理的方法和一种装置
US20210133850A1 (en) Machine learning predictions of recommended products in augmented reality environments
Plötz et al. Activity recognition and healthier food preparation
CN107343382A (zh) 在具有电子微操纵库的仪器化环境中执行特定领域应用的机器人操纵方法和系统
Shimada et al. Kitchen scene context based gesture recognition: A contest in ICPR2012
CN103810284A (zh) 一种厨房管理方法和装置
CN111063419A (zh) 智能健康饮食管理系统
JP2016009211A (ja) ユーザ嗜好に合わせたワイン自動選定システム
CN108197635B (zh) 烹饪方式的展示方法及装置、抽油烟机
CN112579873A (zh) 烹饪食谱推荐方法、装置、存储介质及电子设备
JP2020087224A (ja) 情報処理装置、及び情報処理プログラム
Zhou et al. Cluster analysis of kitchen cabinet operation posture based on OpenPose technology
WO2024048741A1 (ja) 調理動作推定装置、調理動作推定方法、および、調理動作推定プログラム
JP2019219766A (ja) 分析装置、分析システム、及び分析プログラム
JP6868673B1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP7343504B2 (ja) ユーザ固有ユーザインターフェースの生成
Wagner et al. Towards a pervasive kitchen infrastructure for measuring cooking competence
US9621847B2 (en) Terminal, system, display method, and recording medium storing a display program
CN108134809A (zh) 一种信息推送的方法、装置和系统
Tan et al. A comprehensive survey of procedural video datasets

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23860503

Country of ref document: EP

Kind code of ref document: A1