KR102544742B1 - Method and system for measuring volume of food image based on deep learning - Google Patents

Method and system for measuring volume of food image based on deep learning Download PDF

Info

Publication number
KR102544742B1
KR102544742B1 KR1020220075337A KR20220075337A KR102544742B1 KR 102544742 B1 KR102544742 B1 KR 102544742B1 KR 1020220075337 A KR1020220075337 A KR 1020220075337A KR 20220075337 A KR20220075337 A KR 20220075337A KR 102544742 B1 KR102544742 B1 KR 102544742B1
Authority
KR
South Korea
Prior art keywords
image
deep learning
food
algorithm
volume measurement
Prior art date
Application number
KR1020220075337A
Other languages
Korean (ko)
Inventor
이해정
박선주
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Priority to KR1020220075337A priority Critical patent/KR102544742B1/en
Application granted granted Critical
Publication of KR102544742B1 publication Critical patent/KR102544742B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30128Food products

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명의 목적은 이동 통신 단말의 카메라로 음식을 촬영하고, 촬영된 2차원의 음식 이미지에서 3차원의 이미지 값을 추출하여 음식 그릇의 부피와 담아져 있는 음식의 양을 측정하기 위한 딥러닝 기반 음식 이미지 부피 측정 방법 및 시스템을 제공하는 것이다.
상기 목적을 달성하기 위해, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법은, 이동 통신 단말의 카메라로 용기에 담겨진 음식을 촬영하는 제 1 단계; 촬영된 2차원의 이미지로부터 서버에 의해 3차원의 이미지 값을 추출하는 제 2 단계; 및 추출된 상기 이미지 값으로부터 상기 용기의 부피와, 상기 용기에 담겨진 음식의 양을 상기 서버에 의해 측정하는 제 3 단계;를 포함하는 것을 특징으로 한다.
An object of the present invention is a deep learning-based method for measuring the volume of a food bowl and the amount of food contained in a food bowl by photographing food with a camera of a mobile communication terminal and extracting a 3D image value from a 2D food image. It is to provide a food image volume measurement method and system.
In order to achieve the above object, a deep learning-based food image volume measurement method according to the present invention includes a first step of photographing food contained in a container with a camera of a mobile communication terminal; A second step of extracting a 3D image value from the captured 2D image by a server; and a third step of measuring, by the server, the volume of the container and the amount of food contained in the container from the extracted image value.

Description

딥러닝 기반 음식 이미지 부피 측정 방법 및 시스템{METHOD AND SYSTEM FOR MEASURING VOLUME OF FOOD IMAGE BASED ON DEEP LEARNING}Deep learning-based food image volume measurement method and system {METHOD AND SYSTEM FOR MEASURING VOLUME OF FOOD IMAGE BASED ON DEEP LEARNING}

본 발명은 딥러닝 기반 음식 이미지 부피 측정 방법 및 시스템에 관한 것으로, 더욱 상세하게는 2차원 음식 이미지에서 3차원 부피 값을 획득하여 음식의 양을 추정하는 딥러닝 기반 음식 이미지 부피 측정 방법 및 시스템에 관한 것이다.The present invention relates to a method and system for measuring the volume of food images based on deep learning, and more particularly, to a method and system for measuring the volume of food images based on deep learning for estimating the amount of food by obtaining a 3-dimensional volume value from a 2-dimensional food image. it's about

일반적으로, 당뇨병, 고혈압, 비만, 이상지질혈증 등 현대인에서 높은 발병률을 보이는 생활 습관병의 발생과 경과에 영향을 미치는 요소들 중 성별, 노화, 유전적 소인 등의 요소들은 변경 불가하지만 음식과 운동 등의 생활 습관은 개인의 관리와 노력으로 개선될 수 있어 일상 생활에서의 건강 관리에 중요한 부분을 차지한다.In general, factors such as gender, aging, and genetic predisposition among factors influencing the occurrence and course of lifestyle-related diseases with high incidence rates in modern people, such as diabetes, hypertension, obesity, and dyslipidemia, cannot be changed, but food and exercise, etc. The lifestyle of people can be improved through individual management and effort, so it is an important part of health management in daily life.

이에 건강 관리 서비스 시스템에 식습관과 운동을 관리하는 도구가 필수적인 역할을 한다.Therefore, tools to manage eating habits and exercise play an essential role in the health management service system.

가속도 센서 기술의 발달로 활동량을 포함한 운동의 정도를 추적하여 모니터링하는 기술은 많은 발전이 있었으나, 정확한 영양 섭취 상태를 모니터링하는 방법은 제한적이다.With the development of acceleration sensor technology, many advances have been made in tracking and monitoring the degree of exercise including the amount of activity, but methods for accurately monitoring nutritional intake are limited.

모바일 앱 등에서 제공하는 고전적인 방법은 시스템에 사용자가 식사를 한 이후에 섭취한 음식명과 양을 입력하면 구축되어 있는 열량 등 영양소 정보가 포함된 음식 데이터베이스를 기반으로 섭취한 음식에 대한 평가를 제공하는 것이다.In the classic method provided by mobile apps, etc., when the user enters the name and amount of food consumed after eating, the system provides an evaluation of the food eaten based on a food database containing nutrient information such as calories. will be.

또한, 최근 시도된 기술은 음식 사진을 이미지 분석 기술을 이용하여 데이터베이스에서 일치하는 음식 명칭을 찾고 그에 따른 정보와 평가를 제공한다.In addition, a recently attempted technique uses image analysis technology for pictures of food to find matching food names in a database and provides information and evaluation accordingly.

하지만, 이와 같은 기술은 음식 이미지를 분석시 음식의 컬러 패턴을 분석하고, 분석이 완료된 음식에 대한 음식 명칭을 기 저장되어 있는 데이터 베이스에서 일치하는 음식 명칭을 찾고 그에 따른 정보와 평가를 제공하는 것일 뿐, 음식 이미지를 통해 음식의 양을 추정하지는 못하는 문제점이 있었다.However, such technology analyzes the color pattern of food when analyzing food images, finds food names matching the food names for the food for which the analysis has been completed in a database pre-stored, and provides information and evaluation accordingly. However, there was a problem of not being able to estimate the amount of food through the food image.

대한민국 공개특허공보 제10-2019-0066361호Republic of Korea Patent Publication No. 10-2019-0066361

상기한 바와 같은 종래의 문제점을 해결하기 위한 본 발명의 목적은 이동 통신 단말의 카메라로 음식을 촬영하고, 촬영된 2차원의 음식 이미지에서 3차원의 이미지 값을 추출하여 음식 그릇의 부피와 담아져 있는 음식의 양을 측정하기 위한 딥러닝 기반 음식 이미지 부피 측정 방법 및 시스템을 제공하는 것이다.An object of the present invention to solve the conventional problems as described above is to photograph food with a camera of a mobile communication terminal, extract a three-dimensional image value from a photographed two-dimensional food image, and It is to provide a deep learning-based food image volume measurement method and system for measuring the amount of food present.

상기 목적을 달성하기 위해, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법은, 이동 통신 단말의 카메라로 용기에 담겨진 음식을 촬영하는 제 1 단계; 촬영된 2차원의 이미지로부터 서버에 의해 3차원의 이미지 값을 추출하는 제 2 단계; 및 추출된 상기 이미지 값으로부터 상기 용기의 부피와, 상기 용기에 담겨진 음식의 양을 상기 서버에 의해 측정하는 제 3 단계;를 포함하는 것을 특징으로 한다.In order to achieve the above object, a deep learning-based food image volume measurement method according to the present invention includes a first step of photographing food contained in a container with a camera of a mobile communication terminal; A second step of extracting a 3D image value from the captured 2D image by a server; and a third step of measuring, by the server, the volume of the container and the amount of food contained in the container from the extracted image value.

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 상기 3차원의 이미지 값은, 깊이 맵 추정 알고리즘인 홀 필링 알고리즘(Hole Filling Algorithm)을 이용하여 이미지의 깊이를 추정하는 것을 특징으로 한다.In addition, in the deep learning-based food image volume measurement method according to the present invention, the three-dimensional image value is characterized by estimating the depth of the image using a hole filling algorithm, which is a depth map estimation algorithm .

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 상기 홀 필링 알고리즘은, PGPF(Partial Gaussian Pooling and Filling) 알고리즘과, CVF(Cross Variation Filling) 알고리즘을 통해 수행되는 것을 특징으로 한다.In addition, in the deep learning-based food image volume measurement method according to the present invention, the hole filling algorithm is performed through a Partial Gaussian Pooling and Filling (PGPF) algorithm and a Cross Variation Filling (CVF) algorithm.

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 상기 PGPF는, 0이 아닌 부분만을 가지고 가우시안 마스크(Gaussian Mask)를 통해 풀링을 적용하고, 0인 부분만 다시 원래의 픽셀로 필링(Filling)을 시켜 경향성을 가진 픽셀들로 채우는 것을 특징으로 한다.In addition, in the deep learning-based food image volume measurement method according to the present invention, the PGPF applies pooling through a Gaussian Mask with only non-zero parts, and fills only the 0 parts back to the original pixels ( Filling) is characterized in that it is filled with pixels having a tendency.

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 상기 PGPF는 복수회 필터를 적용하여 원하는 결과가 나오도록 유도하는 것을 특징으로 한다.In addition, in the deep learning-based food image volume measurement method according to the present invention, the PGPF is characterized in that a plurality of filters are applied to induce a desired result.

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 상기 CVF는, 상하와, 좌우의 변화량을 측정하여 비어있는 곳의 픽셀을 채워나가며, 상기 상하와, 좌우의 변화량의 평균을 통해 홀 필링을 수행하는 것을 특징으로 한다.In addition, in the deep learning-based food image volume measurement method according to the present invention, the CVF measures the amount of change in the top, bottom, and left and right to fill in the empty pixels, and through the average of the change in the top, bottom, and left and right, the hole It is characterized by performing peeling.

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 상기 상하와, 좌우의 변화량 중에 하나의 변화량만 유용할 경우, 유용한 변화량만 사용하는 것을 특징으로 한다.In addition, in the deep learning-based food image volume measurement method according to the present invention, when only one of the top and bottom and left and right changes is useful, only the useful change is used.

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 상기 홀 필링 알고리즘은, 상기 2차원의 이미지를 판독하는 제 1 단계(S1); 판독된 상기 2차원의 이미지를 임계값으로 설정하여 바이너리(이진화) 이미지를 획득하는 제 2 단계(S2); 획득된 바이너리 이미지로부터 각각의 스텝(Step) 사이의 차이점을 확인하며 픽셀(0, 0)에서 플러드 필(Flood Fill)을 수행하는 제 3 단계(S3); 상기 플러드 필이 수행된 이미지를 인버트(Invert)하는 제 4 단계(S4); 및 임계값 이미지를 결합하는 제 5 단계(S5);를 포함하여 수행되는 것을 특징으로 한다.In addition, in the deep learning-based food image volume measurement method according to the present invention, the hole filling algorithm includes a first step (S1) of reading the two-dimensional image; a second step (S2) of obtaining a binary (binarized) image by setting the read two-dimensional image as a threshold value; A third step (S3) of performing a flood fill on the pixel (0, 0) while checking the difference between each step from the acquired binary image; a fourth step (S4) of inverting the flood-filled image; and a fifth step (S5) of combining the threshold image.

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 추정된 상기 이미지의 깊이에 Fast RCNN 기반의 딥러닝 학습 알고리즘을 적용하여 2차원의 이미지에서 3차원의 상기 이미지 값을 획득하는 것을 특징으로 한다.In addition, in the deep learning-based food image volume measurement method according to the present invention, a Fast RCNN-based deep learning algorithm is applied to the estimated depth of the image to acquire the 3-dimensional image value from the 2-dimensional image. to be

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 상기 Fast RCNN 기반의 딥러닝 학습 알고리즘은, 특징 벡터(넓이와 높이)를 multi-task loss를 사용하여 분류(Classifier)와, 경계 상자 회귀(Bounding box regression)를 동시에 학습하며, 각각의 관심 영역(region proposal)에 대해 상기 multi-task loss를 사용하여 학습하는 것을 특징으로 한다.In addition, in the deep learning-based food image volume measurement method according to the present invention, the Fast RCNN-based deep learning learning algorithm classifies the feature vector (width and height) using multi-task loss, and bounding box It is characterized in that bounding box regression is simultaneously learned, and learning is performed using the multi-task loss for each region proposal.

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 상기 multi-task loss는, 사전 훈련된 네트워크를 초기화하는 제 1 단계(S10); 관심 영역을 선택적으로 검색하는 제 2 단계(S20); 특징을 추출하는 제 3 단계(S30); 관심 영역의 풀링에 의한 맥스 풀링(Max Pooling)을 수행하는 제 4 단계(S40); 특징 벡터를 추출하는 제 5 단계(S50); 분류(Class)를 예측하는 제 6 단계(S60); 경계 상자 회귀를 사용하여 경계 상자의 좌표를 변환함으로써 상기 특징 벡터의 위치를 조정하는 제 7 단계(S70); 및 상기 분류 및 상기 경계 상자 회귀를 동시에 학습하는 제 8 단계(S80)를 포함하여 수행되는 것을 특징으로 한다.In addition, in the deep learning-based food image volume measurement method according to the present invention, the multi-task loss includes a first step (S10) of initializing a pre-trained network; A second step (S20) of selectively searching for a region of interest; A third step (S30) of extracting features; A fourth step (S40) of performing max pooling by pooling the region of interest; A fifth step (S50) of extracting feature vectors; A sixth step of predicting a class (S60); a seventh step (S70) of adjusting the location of the feature vector by transforming the coordinates of the bounding box using bounding box regression; and an eighth step (S80) of simultaneously learning the classification and the bounding box regression.

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 상기 Fast RCNN 기반의 딥러닝 학습 알고리즘은, 인코더 파트에 의해 특징 추출과 다운-샘플링을 수행하고, 디코더 파트에 의해 추출된 상기 특징들에 대한 연쇄(Concatenation) 연산과 컬러 이미지의 사이즈를 참조하여 업-샘플링 과정을 수행하며, 정답 레이블인 깊이 이미지 정보와 손실 함수를 통해 획득한 손실값을 최소화하는 방향으로 가중치가 업데이트되어 생성된 깊이맵 추정 데이터로부터 3차원 입체 이미지를 획득하는 것을 특징으로 한다.In addition, in the deep learning-based food image volume measurement method according to the present invention, the Fast RCNN-based deep learning learning algorithm performs feature extraction and down-sampling by the encoder part, and the features extracted by the decoder part The up-sampling process is performed by referring to the concatenation operation for and the size of the color image, and the depth generated by updating the weight in the direction of minimizing the loss value obtained through the depth image information that is the correct answer label and the loss function. It is characterized in that a 3D stereoscopic image is acquired from map estimation data.

또한, 상기 목적을 달성하기 위해, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 시스템은, 딥러닝 기반 음식 이미지 부피 측정 방법으로 음식 이미지의 부피를 측정하는 것을 특징으로 한다.In addition, in order to achieve the above object, the deep learning-based food image volume measurement system according to the present invention is characterized in that the volume of the food image is measured by a deep learning-based food image volume measurement method.

한편, 상기 목적을 달성하기 위해, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 시스템은, 용기에 담겨진 음식을 촬영하는 이동 통신 단말의 카메라; 및 상기 이동 통신 단말의 카메라로 촬영된 2차원의 이미지로부터 3차원의 이미지 값을 추출하고, 추출된 상기 이미지 값으로부터 상기 용기의 부피와, 상기 용기에 담겨진 음식의 양을 측정하는 서버;를 포함하는 것을 특징으로 한다.On the other hand, in order to achieve the above object, the deep learning-based food image volume measurement system according to the present invention includes a camera of a mobile communication terminal for photographing food contained in a container; And a server that extracts a 3D image value from a 2D image taken by a camera of the mobile communication terminal and measures the volume of the container and the amount of food contained in the container from the extracted image value. It is characterized by doing.

기타 실시 예의 구체적인 사항은 "발명을 실시하기 위한 구체적인 내용" 및 첨부 "도면"에 포함되어 있다.Details of other embodiments are included in the "specific details for carrying out the invention" and the accompanying "drawings".

본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 각종 실시 예를 참조하면 명확해질 것이다.Advantages and/or features of the present invention, and methods of achieving them, will become apparent with reference to the various embodiments described below in detail in conjunction with the accompanying drawings.

그러나 본 발명은 이하에서 개시되는 각 실시 예의 구성만으로 한정되는 것이 아니라 서로 다른 다양한 형태로도 구현될 수도 있으며, 단지 본 명세서에서 개시한 각각의 실시 예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구범위의 각 청구항의 범주에 의해 정의될 뿐임을 알아야 한다.However, the present invention is not limited only to the configuration of each embodiment disclosed below, but may also be implemented in various other forms, and each embodiment disclosed herein only makes the disclosure of the present invention complete, and the present invention It is provided to completely inform those skilled in the art of the scope of the present invention, and it should be noted that the present invention is only defined by the scope of each claim of the claims.

본 발명에 의하면, 이동 통신 단말의 카메라로 음식을 촬영하고, 촬영된 2차원의 음식 이미지에서 3차원의 이미지 값을 추출하여 음식 그릇의 부피와 담아져 있는 음식의 양을 측정할 수 있는 효과가 있다.According to the present invention, the effect of photographing food with a camera of a mobile communication terminal and extracting a three-dimensional image value from the photographed two-dimensional food image to measure the volume of the food bowl and the amount of food contained therein there is.

도 1은 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법의 전체 흐름을 나타내는 플로우 차트.
도 2는 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에 의해 음식 이미지의 부피를 측정하기 위한 음식 사진.
도 3은 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서 홀 필링 알고리즘을 나타내는 도면.
도 4는 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서 Fast RCNN 기반 Dense Depth 모델을 나타내는 도면.
도 5는 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 시스템의 전체 구성을 나타내는 블록도.
1 is a flow chart showing the overall flow of the deep learning-based food image volume measurement method according to the present invention.
Figure 2 is a picture of food for measuring the volume of food images by the method for measuring the volume of food images based on deep learning according to the present invention.
3 is a diagram showing a hole filling algorithm in the deep learning-based food image volume measurement method according to the present invention.
4 is a diagram showing a Fast RCNN-based Dense Depth model in the deep learning-based food image volume measurement method according to the present invention.
Figure 5 is a block diagram showing the overall configuration of the deep learning-based food image volume measurement system according to the present invention.

본 발명을 상세하게 설명하기 전에, 본 명세서에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 무조건 한정하여 해석되어서는 아니 되며, 본 발명의 발명자가 자신의 발명을 가장 최선의 방법으로 설명하기 위해서 각종 용어의 개념을 적절하게 정의하여 사용할 수 있고, 더 나아가 이들 용어나 단어는 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 함을 알아야 한다.Before explaining the present invention in detail, the terms or words used in this specification should not be construed unconditionally in a conventional or dictionary sense, and in order for the inventor of the present invention to explain his/her invention in the best way It should be noted that concepts of various terms may be appropriately defined and used, and furthermore, these terms or words should be interpreted as meanings and concepts corresponding to the technical spirit of the present invention.

즉, 본 명세서에서 사용된 용어는 본 발명의 바람직한 실시 예를 설명하기 위해서 사용되는 것일 뿐이고, 본 발명의 내용을 구체적으로 한정하려는 의도로 사용된 것이 아니며, 이들 용어는 본 발명의 여러 가지 가능성을 고려하여 정의된 용어임을 알아야 한다.That is, the terms used in this specification are only used to describe preferred embodiments of the present invention, and are not intended to specifically limit the contents of the present invention, and these terms represent various possibilities of the present invention. It should be noted that it is a defined term.

또한, 본 명세서에서, 단수의 표현은 문맥상 명확하게 다른 의미로 지시하지 않는 이상, 복수의 표현을 포함할 수 있으며, 유사하게 복수로 표현되어 있다고 하더라도 단수의 의미를 포함할 수 있음을 알아야 한다.In addition, it should be noted that in this specification, singular expressions may include plural expressions unless the context clearly indicates otherwise, and similarly, even if they are expressed in plural numbers, they may include singular meanings. .

본 명세서의 전체에 걸쳐서 어떤 구성 요소가 다른 구성 요소를 "포함"한다고 기재하는 경우에는, 특별히 반대되는 의미의 기재가 없는 한 임의의 다른 구성 요소를 제외하는 것이 아니라 임의의 다른 구성 요소를 더 포함할 수도 있다는 것을 의미할 수 있다.Throughout this specification, when a component is described as "including" another component, it does not exclude any other component, but further includes any other component, unless otherwise stated. It can mean you can do it.

더 나아가서, 어떤 구성 요소가 다른 구성 요소의 "내부에 존재하거나, 연결되어 설치된다"라고 기재한 경우에는, 이 구성 요소가 다른 구성 요소와 직접적으로 연결되어 있거나 접촉하여 설치되어 있을 수 있고, 일정한 거리를 두고 이격되어 설치되어 있을 수도 있으며, 일정한 거리를 두고 이격되어 설치되어 있는 경우에 대해서는 해당 구성 요소를 다른 구성 요소에 고정 내지 연결하기 위한 제 3의 구성 요소 또는 수단이 존재할 수 있으며, 이 제 3의 구성 요소 또는 수단에 대한 설명은 생략될 수도 있음을 알아야 한다.Furthermore, when a component is described as “existing inside or connected to and installed” of another component, this component may be directly connected to or installed in contact with the other component, and a certain It may be installed at a distance, and when it is installed at a certain distance, a third component or means for fixing or connecting the corresponding component to another component may exist, and now It should be noted that the description of the components or means of 3 may be omitted.

반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결"되어 있다거나, 또는 "직접 접속"되어 있다고 기재되는 경우에는, 제 3의 구성 요소 또는 수단이 존재하지 않는 것으로 이해하여야 한다.On the other hand, when it is described that a certain element is "directly connected" to another element, or is "directly connected", it should be understood that no third element or means exists.

마찬가지로, 각 구성 요소 간의 관계를 설명하는 다른 표현들, 즉 " ~ 사이에"와 "바로 ~ 사이에", 또는 " ~ 에 이웃하는"과 " ~ 에 직접 이웃하는" 등도 마찬가지의 취지를 가지고 있는 것으로 해석되어야 한다.Similarly, other expressions describing the relationship between components, such as "between" and "directly between", or "adjacent to" and "directly adjacent to" have the same meaning. should be interpreted as

또한, 본 명세서에서 "일면", "타면", "일측", "타측", "제 1", "제 2" 등의 용어는, 사용된다면, 하나의 구성 요소에 대해서 이 하나의 구성 요소가 다른 구성 요소로부터 명확하게 구별될 수 있도록 하기 위해서 사용되며, 이와 같은 용어에 의해서 해당 구성 요소의 의미가 제한적으로 사용되는 것은 아님을 알아야 한다.In addition, in this specification, the terms "one side", "the other side", "one side", "the other side", "first", "second", etc., if used, refer to one component It is used to be clearly distinguished from other components, and it should be noted that the meaning of the corresponding component is not limitedly used by such a term.

또한, 본 명세서에서 "상", "하", "좌", "우" 등의 위치와 관련된 용어는, 사용된다면, 해당 구성 요소에 대해서 해당 도면에서의 상대적인 위치를 나타내고 있는 것으로 이해하여야 하며, 이들의 위치에 대해서 절대적인 위치를 특정하지 않는 이상은, 이들 위치 관련 용어가 절대적인 위치를 언급하고 있는 것으로 이해하여서는 아니된다.In addition, in this specification, terms related to positions such as "top", "bottom", "left", and "right", if used, should be understood as indicating a relative position in the drawing with respect to the corresponding component, Unless an absolute position is specified for these positions, these positional terms should not be understood as referring to an absolute position.

또한, 본 명세서에서는 각 도면의 각 구성 요소에 대해서 그 도면 부호를 명기함에 있어서, 동일한 구성 요소에 대해서는 이 구성 요소가 비록 다른 도면에 표시되더라도 동일한 도면 부호를 가지고 있도록, 즉 명세서 전체에 걸쳐 동일한 참조 부호는 동일한 구성 요소를 지시하고 있다.In addition, in this specification, in specifying the reference numerals for each component of each drawing, for the same component, even if the component is displayed in different drawings, it has the same reference numeral, that is, the same reference throughout the specification. Symbols indicate identical components.

본 명세서에 첨부된 도면에서 본 발명을 구성하는 각 구성 요소의 크기, 위치, 결합 관계 등은 본 발명의 사상을 충분히 명확하게 전달할 수 있도록 하기 위해서 또는 설명의 편의를 위해서 일부 과장 또는 축소되거나 생략되어 기술되어 있을 수 있고, 따라서 그 비례나 축척은 엄밀하지 않을 수 있다.In the drawings accompanying this specification, the size, position, coupling relationship, etc. of each component constituting the present invention is partially exaggerated, reduced, or omitted in order to sufficiently clearly convey the spirit of the present invention or for convenience of explanation. may be described, and therefore the proportions or scale may not be exact.

또한, 이하에서, 본 발명을 설명함에 있어서, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 구성, 예를 들어, 종래 기술을 포함하는 공지 기술에 대해 상세한 설명은 생략될 수도 있다.In addition, in the following description of the present invention, a detailed description of a configuration that is determined to unnecessarily obscure the subject matter of the present invention, for example, a known technology including the prior art, may be omitted.

이하, 본 발명의 실시 예에 대해 관련 도면들을 참조하여 상세히 설명하기로 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to related drawings.

도 1은 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법의 전체 흐름을 나타내는 플로우 차트이다.1 is a flow chart showing the overall flow of the deep learning-based food image volume measurement method according to the present invention.

도 1을 참조하면, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법은 3개의 단계를 포함한다.Referring to Figure 1, the deep learning-based food image volume measurement method according to the present invention includes three steps.

제 1 단계(S100)에서는, 이동 통신 단말(100)의 카메라(110)로 용기(10)에 담겨진 음식을 촬영한다.In the first step (S100), the food contained in the container 10 is photographed by the camera 110 of the mobile communication terminal 100.

여기서, 이동 통신 단말(100)이란, 고정되지 않은 위치에서 이동 중에 무선으로 하는 통신 방식을 적용한 단말기로, 예를 들어 태블릿 PC, 스마트폰 등일 수 있다.Here, the mobile communication terminal 100 is a terminal to which a wireless communication method is applied while moving in a non-fixed location, and may be, for example, a tablet PC or a smart phone.

제 2 단계(S200)에서는, 촬영된 2차원의 이미지로부터 서버(200)에 의해 3차원의 이미지 값을 추출한다.In the second step (S200), a 3D image value is extracted from the captured 2D image by the server 200.

이때, 이동 통신 단말(100)의 카메라(110)에 의해 촬영된 2차원의 이미지는 유선 통신 또는 무선 통신을 수행하는 통신부(210)에 의해 서버(200)로 전송된다.At this time, the two-dimensional image captured by the camera 110 of the mobile communication terminal 100 is transmitted to the server 200 by the communication unit 210 performing wired or wireless communication.

이러한 통신부(210)의 무선 통신으로는 블루투스(Bluetooth) 모듈, 와이파이(Wi-fi) 모듈, 와이브로(Wireless Broadband) 모듈 외에도, GSM(Global System For Mobile Communication), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), UMTS(Universal Mobile Telecommunications System), TDMA(Time Division Multiple Access), LTE(Long Term Evolution) 등 다양한 무선 통신 방식을 지원하는 무선 통신 모듈을 통해 전송될 수 있다.Wireless communication of the communication unit 210 includes a Bluetooth module, a Wi-fi module, and a Wireless Broadband module, as well as Global System For Mobile Communication (GSM), Code Division Multiple Access (CDMA), and WCDMA. It can be transmitted through a wireless communication module supporting various wireless communication schemes such as wideband code division multiple access (UMTS), universal mobile telecommunications system (UMTS), time division multiple access (TDMA), and long term evolution (LTE).

제 3 단계(S300)에서는, 추출된 이미지 값으로부터 용기(10)의 부피와, 용기(10)에 담겨진 음식의 양을 서버(200)의 측정부(230)에 의해 측정한다.In the third step (S300), the volume of the container 10 and the amount of food contained in the container 10 are measured from the extracted image values by the measuring unit 230 of the server 200.

이에 대해, 좀 더 상세히 설명하도록 한다.This will be explained in more detail.

도 2는 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에 의해 음식 이미지의 부피를 측정하기 위한 음식 사진이다.Figure 2 is a picture of food for measuring the volume of food images by the method for measuring the volume of food images based on deep learning according to the present invention.

도 2를 참조하면, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서는, 이동 통신 단말(100)의 카메라(110)를 기반으로 쵤영된 2차원 음식 이미지에서 3차원 부피 값을 알고리즘을 통해 획득하여 음식의 양을 추정할 수 있다.Referring to FIG. 2, in the deep learning-based food image volume measurement method according to the present invention, a three-dimensional volume value is obtained through an algorithm from a two-dimensional food image captured based on the camera 110 of the mobile communication terminal 100 So you can estimate the amount of food.

이러한 알고리즘은 이동 통신 단말(100)의 카메라(110)로 음식을 촬영하고, 촬영된 2차원의 음식 이미지에서 3차원의 이미지 값을 추출하여 음식 그릇의 부피와 담아져 있는 음식의 양을 측정하기 위한 알고리즘이다.This algorithm photographs food with the camera 110 of the mobile communication terminal 100, extracts a 3D image value from the 2D food image, and measures the volume of the food bowl and the amount of food contained therein. It is an algorithm for

이와 같은 본 알고리즘의 특징은 1차로 이미지의 깊이를 추정하고, 2차로 Fast RCNN 기반 딥러닝 알고리즘을 통해 촬영된 2차원 이미지에서 3차원 이미지를 획득한다.The feature of this algorithm is that it firstly estimates the depth of an image and secondly acquires a 3D image from a 2D image taken through a Fast RCNN-based deep learning algorithm.

본 발명에 따른 알고리즘의 프로세스는 다음과 같다.The process of the algorithm according to the present invention is as follows.

깊이(Depths) 측정 → 홀 필링(Partial Gaussian Pooling & Filling PCGF + Cross Variation Filling(CVF) → DenseDepth(fast RCNN)Depths measurement → Hole filling (Partial Gaussian Pooling & Filling PCGF + Cross Variation Filling (CVF) → DenseDepth (fast RCNN)

도 3은 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서 홀 필링 알고리즘을 나타내는 도면이다.3 is a diagram showing a hole filling algorithm in the method for measuring the volume of food images based on deep learning according to the present invention.

도 3을 참조하면, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 3차원의 이미지 값은 깊이 맵 추정 알고리즘인 홀 필링 알고리즘(Hole Filling Algorithm)을 이용하여 이미지의 깊이를 추정한다.Referring to FIG. 3 , in the deep learning-based food image volume measurement method according to the present invention, the depth of the image is estimated using a hole filling algorithm, which is a depth map estimation algorithm, for a three-dimensional image value.

여기서, 홀 필링 알고리즘은 PGPF(Partial Gaussian Pooling and Filling) 알고리즘과, CVF(Cross Variation Filling) 알고리즘을 통해 수행된다.Here, the hole filling algorithm is performed through a Partial Gaussian Pooling and Filling (PGPF) algorithm and a Cross Variation Filling (CVF) algorithm.

PGPF는 0이 아닌 부분만을 가지고 가우시안 마스크(Gaussian Mask)를 통해 풀링을 적용하고, 0인 부분만 다시 원래의 픽셀로 필링(Filling)을 시켜 경향성을 가진 픽셀들로 채우게 된다.PGPF applies pooling through a Gaussian mask with only non-zero parts, and fills only the 0 parts with original pixels by filling them with pixels with a tendency.

또한, PGPF는 복수회 필터를 적용하여 원하는 결과가 나오도록 유도한다.In addition, the PGPF induces a desired result by applying a plurality of filters.

즉, PGPF는 0이 아닌 부분만을 가지고 가우시안 마스크를 통해 풀링을 적용한다.That is, the PGPF applies pooling through a Gaussian mask with only a non-zero portion.

그 다음 0인 부분만 다시 원래의 픽셀로 필링을 시키게 되면 어느 정도 경향성을 가진 픽셀들로 채워지게 된다.Then, if only the 0 part is filled with the original pixel, it is filled with pixels having a certain tendency.

PGPF는 한 번만 하는 것이 아니라 3*3, 5*5 등 여러 번 필터를 적용하여 원하는 결과가 나올 수 있도록 유도한다.PGPF is applied not once, but several times, such as 3*3 or 5*5, to induce desired results.

예컨대, 6*6 깊이 이미지에서 0 이하인 곳을 3*3 가우시안 마스크를 통해 PGPF를 적용한다.For example, PGPF is applied to a 6x6 depth image where the value is less than 0 through a 3x3 Gaussian mask.

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, CVF는 상하와, 좌우의 변화량을 측정하여 비어있는 곳의 픽셀을 채워나가며, 상하와, 좌우의 변화량의 평균을 통해 홀 필링(Hole Filling)을 수행한다.In addition, in the deep learning-based food image volume measurement method according to the present invention, CVF measures the amount of change in the top and bottom and left and right to fill in the empty pixels, and through the average of the change in top and bottom and left and right, hole filling (Hole Filling) is performed.

이때, 상하와, 좌우의 변화량 중에 하나의 변화량만 유용할 경우, 유용한 변화량만 사용한다.At this time, when only one of the vertical and horizontal variations is useful, only the useful variation is used.

즉, CVF는 상하, 좌우의 변화량을 측정하여 비어있는 곳의 픽셀을 채워나가는 알고리즘이다.In other words, CVF is an algorithm that fills in empty pixels by measuring the amount of vertical and horizontal variation.

상하, 좌우의 변화량의 평균을 통해 홀 필링을 진행한다.Hole filling is carried out through the average of the vertical and horizontal changes.

만약 상하와, 좌우의 변화량 중 하나의 변화량만 유용하다고 가정할 경우, 특정 변화량만 사용하게 된다.If it is assumed that only one change amount among up/down and left/right changes is useful, only a specific change amount is used.

이러한 CVF는 상하, 좌우의 경향성을 파악하기 때문에 정확한 홀 필링이 가능하다.Since this CVF detects vertical and horizontal trends, accurate hole filling is possible.

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 홀 필링 알고리즘은 5개의 단계를 포함한다.In addition, in the deep learning-based food image volume measurement method according to the present invention, the hole filling algorithm includes 5 steps.

제 1 단계(S1)에서는, 2차원의 이미지를 판독한다.In the first step (S1), a two-dimensional image is read.

제 2 단계(S2)에서는, 판독된 2차원의 이미지를 임계값으로 설정하여 바이너리(이진화) 이미지를 획득한다.In the second step (S2), a binary (binarized) image is obtained by setting the read 2D image as a threshold value.

제 3 단계(S3)에서는, 획득된 바이너리 이미지로부터 각각의 스텝(Step) 사이의 차이점을 확인하며 픽셀(0, 0)에서 플러드 필(Flood Fill)을 수행한다.In the third step (S3), a difference between each step is checked from the obtained binary image, and flood fill is performed on the pixel (0, 0).

제 4 단계(S4)에서는, 플러드 필이 수행된 이미지를 인버트(Invert)한다.In the fourth step (S4), the flood-filled image is inverted.

제 5 단계(S5)에서는, 임계값 이미지를 결합한다.In the fifth step (S5), the threshold image is combined.

이와 같은 홀 필링 알고리즘에 의해 2차원 이미지의 깊이 맵을 추정하게 된다.A depth map of a 2D image is estimated by such a hole filling algorithm.

도 4는 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서 Fast RCNN 기반 Dense Depth 모델을 나타내는 도면이다.4 is a diagram showing the Fast RCNN-based Dense Depth model in the deep learning-based food image volume measurement method according to the present invention.

도 4를 참조하면, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 추정된 이미지의 깊이에 Fast RCNN 기반의 딥러닝 학습 알고리즘을 적용하여 2차원의 이미지에서 3차원의 이미지 값을 획득한다.Referring to FIG. 4, in the deep learning-based food image volume measurement method according to the present invention, a 3-dimensional image value is obtained from a 2-dimensional image by applying a Fast RCNN-based deep learning algorithm to the depth of the estimated image. .

본 발명에서 Fast RCNN 기반의 딥러닝 학습 알고리즘은, 특징 벡터(넓이와 높이)를 multi-task loss를 사용하여 분류(Classifier)와, 경계 상자 회귀(Bounding box regression)를 동시에 학습하며, 각각의 관심 영역에 대해 multi-task loss를 사용하여 학습을 수행하게 된다.In the present invention, the Fast RCNN-based deep learning algorithm simultaneously learns classification and bounding box regression using multi-task loss for feature vectors (width and height), and each interest Learning is performed using multi-task loss for the region.

여기서, multi-task loss는 8개의 단계를 포함한다.Here, multi-task loss includes 8 steps.

제 1 단계(S10)에서는, 사전 훈련된 네트워크를 초기화한다.In the first step (S10), a pre-trained network is initialized.

제 2 단계(S20)에서는, 관심 영역을 선택적으로 검색한다.In a second step (S20), a region of interest is selectively searched.

제 3 단계(S30)에서는, 특징을 추출한다.In the third step (S30), features are extracted.

제 4 단계(S40)에서는, 관심 영역의 풀링에 의한 맥스 풀링(Max Pooling)을 수행한다.In the fourth step (S40), max pooling is performed by pooling the region of interest.

제 5 단계(S50)에서는, 특징 벡터를 추출한다.In the fifth step (S50), feature vectors are extracted.

제 6 단계S60)에서는, 분류(Class)를 예측한다.In the sixth step S60), the classification (Class) is predicted.

제 7 단계(S70)에서는, 경계 상자 회귀를 사용하여 경계 상자의 좌표를 변환함으로써 특징 벡터의 위치를 조정한다.In the seventh step (S70), the position of the feature vector is adjusted by transforming the coordinates of the bounding box using bounding box regression.

제 8 단계(S80)에서는, 분류 및 경계 상자 회귀를 동시에 학습한다.In the eighth step (S80), classification and bounding box regression are simultaneously learned.

이러한 Fast RCNN 기반의 딥러닝 학습 알고리즘은 인코더 파트에 의해 특징 추출과 다운-샘플링을 수행한다.This Fast RCNN-based deep learning algorithm performs feature extraction and down-sampling by the encoder part.

또한, 디코더 파트에 의해 추출된 상기 특징들에 대한 연쇄(Concatenation) 연산과 컬러 이미지의 사이즈를 참조하여 업-샘플링 과정을 수행한다.In addition, an up-sampling process is performed by referring to a concatenation operation for the features extracted by the decoder part and the size of the color image.

이후, 정답 레이블인 깊이 이미지 정보와 손실 함수를 통해 획득한 손실값을 최소화하는 방향으로 가중치가 업데이트되어 생성된 깊이맵 추정 데이터로부터 3차원 입체 이미지를 획득한다.Thereafter, a 3D stereoscopic image is obtained from depth map estimation data generated by updating weights in a direction that minimizes a loss value obtained through depth image information and a loss function, which are correct labels.

즉, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 방법에서, 인코더-디코더 구조를 갖는 Fast RCNN 기반 Dense Depth 모델은 입력 데이터에 대한 특징 추출, 샘플링 축소(Down-Sampling), 결합, 샘플링 늘임(Up-Sampling) 등의 일련 과정을 통하여 최종적으로 깊이맵을 재구성하는 작업을 수행한다.That is, in the deep learning-based food image volume measurement method according to the present invention, the Fast RCNN-based Dense Depth model having an encoder-decoder structure extracts features for input data, down-samples, combines, and increases sampling (Up-Sampling). -Sampling), etc., to finally reconstruct the depth map.

입력된 2D 이미지(컬러 이미지)는 인코더 파트에 의해서 특징 추출과 다운-샘플링 과정을 거친다.The input 2D image (color image) undergoes feature extraction and down-sampling by the encoder part.

그리고 디코더 파트에서는 추출된 특징들에 대한 연쇄(Concatenation) 연산과 컬러 이미지의 사이즈를 참조하여 업-샘플링 과정이 수행된다.In the decoder part, an up-sampling process is performed by referring to a concatenation operation for the extracted features and the size of the color image.

따라서, 정답 레이블인 깊이 이미지 정보와 손실 함수를 통하여 획득한 손실값을 최소화하는 방향으로 가중치가 업데이트된다.Therefore, the weight is updated in a direction that minimizes the loss value obtained through the depth image information that is the correct answer label and the loss function.

이와 같은 Fast RCNN 기반의 딥러닝 학습 알고리즘 모델을 통하여 생성된 깊이맵 추정 데이터를 통하여 3차원 입체 이미지를 획득하게 된다.A 3D stereoscopic image is obtained through the depth map estimation data generated through the Fast RCNN-based deep learning algorithm model.

도 5는 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 시스템의 전체 구성을 나타내는 블록도이다.Figure 5 is a block diagram showing the overall configuration of the deep learning-based food image volume measurement system according to the present invention.

도 5를 참조하면, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 시스템(1000)은 딥러닝 기반 음식 이미지 부피 측정 방법으로 음식 이미지의 부피를 측정한다.Referring to FIG. 5 , the deep learning-based food image volume measurement system 1000 according to the present invention measures the volume of food images using a deep learning-based food image volume measurement method.

좀 더 상세하게는 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 시스템(1000)은 이동 통신 단말(100)과, 서버(200)를 포함한다.More specifically, the deep learning-based food image volume measurement system 1000 according to the present invention includes a mobile communication terminal 100 and a server 200.

여기서, 이동 통신 단말(100)이란, 고정되지 않은 위치에서 이동 중에 무선으로 하는 통신 방식을 적용한 단말기로, 예를 들어 태블릿 PC, 스마트폰 등일 수 있다.Here, the mobile communication terminal 100 is a terminal to which a wireless communication method is applied while moving in a non-fixed location, and may be, for example, a tablet PC or a smart phone.

이러한 이동 통신 단말(100)은 카메라(110)를 포함하고 있다.This mobile communication terminal 100 includes a camera 110 .

즉, 이동 통신 단말(100)의 카메라(110)는 용기(10)에 담겨진 음식을 촬영한다.That is, the camera 110 of the mobile communication terminal 100 photographs the food contained in the container 10 .

서버(200)는 통신부(210)와, 학습부(220)와, 측정부(230)와, 저장부(240)를 포함한다.The server 200 includes a communication unit 210, a learning unit 220, a measurement unit 230, and a storage unit 240.

이러한 서버(200)는 이동 통신 단말(100)의 카메라(110)로 촬영된 2차원의 이미지로부터 3차원의 이미지 값을 추출하고, 추출된 이미지 값으로부터 용기(10)의 부피와, 용기(10)에 담겨진 음식의 양을 측정부(230)에 의해 측정한다.The server 200 extracts a 3D image value from a 2D image taken by the camera 110 of the mobile communication terminal 100, and the volume of the container 10 and the container 10 from the extracted image value. ) The amount of food contained in the measuring unit 230 is measured.

우선, 통신부(210)는 이동 통신 단말(100)의 카메라(110)에 의해 촬영된 2차원의 이미지를 유선 통신 또는 무선 통신을 통해 서버(200)로 전송하는 역할을 수행한다.First, the communication unit 210 serves to transmit a two-dimensional image captured by the camera 110 of the mobile communication terminal 100 to the server 200 through wired or wireless communication.

이러한 통신부(210)의 무선 통신으로는 블루투스(Bluetooth) 모듈, 와이파이(Wi-fi) 모듈, 와이브로(Wireless Broadband) 모듈 외에도, GSM(Global System For Mobile Communication), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), UMTS(Universal Mobile Telecommunications System), TDMA(Time Division Multiple Access), LTE(Long Term Evolution) 등 다양한 무선 통신 방식을 지원하는 무선 통신 모듈을 통해 전송될 수 있다.Wireless communication of the communication unit 210 includes a Bluetooth module, a Wi-fi module, and a Wireless Broadband module, as well as Global System For Mobile Communication (GSM), Code Division Multiple Access (CDMA), and WCDMA. It can be transmitted through a wireless communication module supporting various wireless communication schemes such as wideband code division multiple access (UMTS), universal mobile telecommunications system (UMTS), time division multiple access (TDMA), and long term evolution (LTE).

학습부(220)에서는, 이동 통신 단말(100)의 카메라(110)를 기반으로 쵤영된 2차원 음식 이미지에서 3차원 부피 값을 알고리즘을 통해 획득하여 음식의 양을 추정할 수 있다.The learning unit 220 may estimate the amount of food by obtaining a 3D volume value from a 2D food image captured based on the camera 110 of the mobile communication terminal 100 through an algorithm.

이러한 알고리즘은 이동 통신 단말(100)의 카메라(110)로 음식을 촬영하고, 촬영된 2차원의 음식 이미지에서 3차원의 이미지 값을 추출하여 음식 그릇의 부피와 담아져 있는 음식의 양을 측정하기 위한 알고리즘이다.This algorithm photographs food with the camera 110 of the mobile communication terminal 100, extracts a 3D image value from the 2D food image, and measures the volume of the food bowl and the amount of food contained therein. It is an algorithm for

이와 같은 본 알고리즘의 특징은 1차로 이미지의 깊이를 추정하고, 2차로 Fast RCNN 기반 딥러닝 알고리즘을 통해 촬영된 2차원 이미지에서 3차원 이미지를 획득한다.The feature of this algorithm is that it firstly estimates the depth of an image and secondly acquires a 3D image from a 2D image taken through a Fast RCNN-based deep learning algorithm.

본 발명에 따른 알고리즘의 프로세스는 다음과 같다.The process of the algorithm according to the present invention is as follows.

깊이(Depths) 측정 → 홀 필링(Partial Gaussian Pooling & Filling PCGF + Cross Variation Filling(CVF) → DenseDepth(fast RCNN)Depths measurement → Hole filling (Partial Gaussian Pooling & Filling PCGF + Cross Variation Filling (CVF) → DenseDepth (fast RCNN)

본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 시스템(1000)에서, 3차원의 이미지 값은 깊이 맵 추정 알고리즘인 홀 필링 알고리즘(Hole Filling Algorithm)을 이용하여 이미지의 깊이를 추정한다.In the deep learning-based food image volume measurement system 1000 according to the present invention, the depth of the image is estimated using a hole filling algorithm, which is a depth map estimation algorithm, for a 3-dimensional image value.

여기서, 홀 필링 알고리즘은 PGPF(Partial Gaussian Pooling and Filling) 알고리즘과, CVF(Cross Variation Filling) 알고리즘을 통해 수행된다.Here, the hole filling algorithm is performed through a Partial Gaussian Pooling and Filling (PGPF) algorithm and a Cross Variation Filling (CVF) algorithm.

PGPF는 0이 아닌 부분만을 가지고 가우시안 마스크(Gaussian Mask)를 통해 풀링을 적용하고, 0인 부분만 다시 원래의 픽셀로 필링(Filling)을 시켜 경향성을 가진 픽셀들로 채우게 된다.PGPF applies pooling through a Gaussian mask with only non-zero parts, and fills only the 0 parts with original pixels by filling them with pixels with a tendency.

또한, PGPF는 복수회 필터를 적용하여 원하는 결과가 나오도록 유도한다.In addition, the PGPF induces a desired result by applying a plurality of filters.

즉, PGPF는 0이 아닌 부분만을 가지고 가우시안 마스크를 통해 풀링을 적용한다.That is, the PGPF applies pooling through a Gaussian mask with only non-zero parts.

그 다음 0인 부분만 다시 원래의 픽셀로 필링을 시키게 되면 어느 정도 경향성을 가진 픽셀들로 채워지게 된다.Then, if only the 0 part is filled with the original pixel, it is filled with pixels having a certain tendency.

PGPF는 한 번만 하는 것이 아니라 3*3, 5*5 등 여러 번 필터를 적용하여 원하는 결과가 나올 수 있도록 유도한다.PGPF is applied not once, but several times, such as 3*3 or 5*5, to induce desired results.

예컨대, 6*6 깊이 이미지에서 0 이하인 곳을 3*3 가우시안 마스크를 통해 PGPF를 적용한다.For example, PGPF is applied to a 6x6 depth image where the value is less than 0 through a 3x3 Gaussian mask.

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 시스템에서, CVF는 상하와, 좌우의 변화량을 측정하여 비어있는 곳의 픽셀을 채워나가며, 상하와, 좌우의 변화량의 평균을 통해 홀 필링(Hole Filling)을 수행한다.In addition, in the deep learning-based food image volume measurement system according to the present invention, CVF measures the amount of change in the top and bottom and left and right to fill in the empty pixels, and through the average of the change in top and bottom and left and right, hole filling (Hole Filling) is performed.

이때, 상하와, 좌우의 변화량 중에 하나의 변화량만 유용할 경우, 유용한 변화량만 사용한다.At this time, when only one of the vertical and horizontal variations is useful, only the useful variation is used.

즉, CVF는 상하, 좌우의 변화량을 측정하여 비어있는 곳의 픽셀을 채워나가는 알고리즘이다.In other words, CVF is an algorithm that fills in empty pixels by measuring the amount of vertical and horizontal variation.

상하, 좌우의 변화량의 평균을 통해 홀 필링을 진행한다.Hole filling is carried out through the average of the vertical and horizontal changes.

만약 상하와, 좌우의 변화량 중 하나의 변화량만 유용하다고 가정할 경우, 특정 변화량만 사용하게 된다.If it is assumed that only one variation among vertical and horizontal variations is useful, only a specific variation is used.

이러한 CVF는 상하, 좌우의 경향성을 파악하기 때문에 정확한 홀 필링이 가능하다.Since this CVF detects vertical and horizontal trends, accurate hole filling is possible.

또한, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 시스템에서, 홀 필링 알고리즘은 5개의 단계를 포함한다.In addition, in the deep learning-based food image volume measurement system according to the present invention, the hole filling algorithm includes 5 steps.

제 1 단계(S1)에서는, 2차원의 이미지를 판독한다.In the first step (S1), a two-dimensional image is read.

제 2 단계(S2)에서는, 판독된 2차원의 이미지를 임계값으로 설정하여 바이너리(이진화) 이미지를 획득한다.In the second step (S2), a binary (binarized) image is obtained by setting the read 2D image as a threshold value.

제 3 단계(S3)에서는, 획득된 바이너리 이미지로부터 각각의 스텝(Step) 사이의 차이점을 확인하며 픽셀(0, 0)에서 플러드 필(Flood Fill)을 수행한다.In the third step (S3), a difference between each step is checked from the obtained binary image, and flood fill is performed on the pixel (0, 0).

제 4 단계(S4)에서는, 플러드 필이 수행된 이미지를 인버트(Invert)한다.In the fourth step (S4), the flood-filled image is inverted.

제 5 단계(S5)에서는, 임계값 이미지를 결합한다.In the fifth step (S5), the threshold image is combined.

이와 같은 홀 필링 알고리즘에 의해 2차원 이미지의 깊이 맵을 추정하게 된다.A depth map of a 2D image is estimated by such a hole filling algorithm.

한편, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 시스템(1000)에서, 추정된 이미지의 깊이에 Fast RCNN 기반의 딥러닝 학습 알고리즘을 적용하여 2차원의 이미지에서 3차원의 이미지 값을 획득한다.On the other hand, in the deep learning-based food image volume measurement system 1000 according to the present invention, a 3-dimensional image value is obtained from a 2-dimensional image by applying a Fast RCNN-based deep learning algorithm to the depth of the estimated image.

본 발명에서 Fast RCNN 기반의 딥러닝 학습 알고리즘은, 특징 벡터(넓이와 높이)를 multi-task loss를 사용하여 분류(Classifier)와, 경계 상자 회귀(Bounding box regression)를 동시에 학습하며, 각각의 관심 영역에 대해 multi-task loss를 사용하여 학습을 수행하게 된다.In the present invention, the Fast RCNN-based deep learning algorithm simultaneously learns classification and bounding box regression using multi-task loss for feature vectors (width and height), and each interest Learning is performed using multi-task loss for the region.

여기서, multi-task loss는 8개의 단계를 포함한다.Here, multi-task loss includes 8 steps.

제 1 단계(S10)에서는, 사전 훈련된 네트워크를 초기화한다.In the first step (S10), a pre-trained network is initialized.

제 2 단계(S20)에서는, 관심 영역을 선택적으로 검색한다.In a second step (S20), a region of interest is selectively searched.

제 3 단계(S30)에서는, 특징을 추출한다.In the third step (S30), features are extracted.

제 4 단계(S40)에서는, 관심 영역의 풀링에 의한 맥스 풀링(Max Pooling)을 수행한다.In the fourth step (S40), max pooling is performed by pooling the region of interest.

제 5 단계(S50)에서는, 특징 벡터를 추출한다.In the fifth step (S50), feature vectors are extracted.

제 6 단계S60)에서는, 분류(Class)를 예측한다.In the sixth step S60), the classification (Class) is predicted.

제 7 단계(S70)에서는, 경계 상자 회귀를 사용하여 경계 상자의 좌표를 변환함으로써 특징 벡터의 위치를 조정한다.In the seventh step (S70), the position of the feature vector is adjusted by transforming the coordinates of the bounding box using bounding box regression.

제 8 단계(S80)에서는, 분류 및 경계 상자 회귀를 동시에 학습한다.In the eighth step (S80), classification and bounding box regression are simultaneously learned.

이러한 Fast RCNN 기반의 딥러닝 학습 알고리즘은 인코더 파트에 의해 특징 추출과 다운-샘플링을 수행한다.This Fast RCNN-based deep learning algorithm performs feature extraction and down-sampling by the encoder part.

또한, 디코더 파트에 의해 추출된 상기 특징들에 대한 연쇄(Concatenation) 연산과 컬러 이미지의 사이즈를 참조하여 업-샘플링 과정을 수행한다.In addition, an up-sampling process is performed by referring to a concatenation operation for the features extracted by the decoder part and the size of the color image.

이후, 정답 레이블인 깊이 이미지 정보와 손실 함수를 통해 획득한 손실값을 최소화하는 방향으로 가중치가 업데이트되어 생성된 깊이맵 추정 데이터로부터 3차원 입체 이미지를 획득한다.Thereafter, a 3D stereoscopic image is obtained from depth map estimation data generated by updating weights in a direction that minimizes a loss value obtained through depth image information and a loss function, which are correct labels.

즉, 본 발명에 따른 딥러닝 기반 음식 이미지 부피 측정 시스템(1000)에서, 인코더-디코더 구조를 갖는 Fast RCNN 기반 Dense Depth 모델은 입력 데이터에 대한 특징 추출, 샘플링 축소(Down-Sampling), 결합, 샘플링 늘임(Up-Sampling) 등의 일련 과정을 통하여 최종적으로 깊이맵을 재구성하는 작업을 수행한다.That is, in the deep learning-based food image volume measurement system 1000 according to the present invention, the Fast RCNN-based Dense Depth model having an encoder-decoder structure features extraction of input data, down-sampling, combining, and sampling. Finally, the depth map is reconstructed through a series of processes such as up-sampling.

입력된 2D 이미지(컬러 이미지)는 인코더 파트에 의해서 특징 추출과 다운-샘플링 과정을 거친다.The input 2D image (color image) undergoes feature extraction and down-sampling by the encoder part.

그리고 디코더 파트에서는 추출된 특징들에 대한 연쇄(Concatenation) 연산과 컬러 이미지의 사이즈를 참조하여 업-샘플링 과정이 수행된다.In the decoder part, an up-sampling process is performed by referring to a concatenation operation for the extracted features and the size of the color image.

따라서, 정답 레이블인 깊이 이미지 정보와 손실 함수를 통하여 획득한 손실값을 최소화하는 방향으로 가중치가 업데이트된다.Therefore, the weight is updated in a direction that minimizes the loss value obtained through the depth image information that is the correct answer label and the loss function.

측정부(230)에서는, 이와 같은 Fast RCNN 기반의 딥러닝 학습 알고리즘 모델을 통하여 생성된 깊이맵 추정 데이터를 통하여 3차원 입체 이미지를 측정하여 획득하게 된다.In the measurement unit 230, a 3D stereoscopic image is obtained by measuring the depth map estimation data generated through the Fast RCNN-based deep learning algorithm model.

저장부(240)는 2차원의 이미지로부터 추출된 3차원의 이미지 값을 저장하고, 추출된 이미지 값으로부터 측정된 용기(10)의 부피와, 측정된 용기(10)에 담겨진 음식의 양 등을 저장한다.The storage unit 240 stores the 3D image value extracted from the 2D image, and the volume of the container 10 measured from the extracted image value, the amount of food contained in the measured container 10, etc. Save.

이와 같이 본 발명에 의하면, 이동 통신 단말(100)의 카메라(110)로 음식을 촬영하고, 촬영된 2차원의 음식 이미지에서 3차원의 이미지 값을 추출하여 음식 그릇의 부피와 담아져 있는 음식의 양을 측정할 수 있는 효과가 있다.As described above, according to the present invention, food is photographed with the camera 110 of the mobile communication terminal 100, and a three-dimensional image value is extracted from the photographed two-dimensional food image to determine the volume of the food bowl and the food contained therein. It has the ability to measure quantity.

이상, 일부 예를 들어서 본 발명의 바람직한 여러 가지 실시 예에 대해서 설명하였지만, 본 "발명을 실시하기 위한 구체적인 내용" 항목에 기재된 여러 가지 다양한 실시 예에 관한 설명은 예시적인 것에 불과한 것이며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이상의 설명으로부터 본 발명을 다양하게 변형하여 실시하거나 본 발명과 균등한 실시를 행할 수 있다는 점을 잘 이해하고 있을 것이다.In the above, various preferred embodiments of the present invention have been described with some examples, but the description of various embodiments described in the "Specific Contents for Carrying Out the Invention" section is only exemplary, and the present invention Those skilled in the art will understand from the above description that the present invention can be practiced with various modifications or equivalent implementations of the present invention can be performed.

또한, 본 발명은 다른 다양한 형태로 구현될 수 있기 때문에 본 발명은 상술한 설명에 의해서 한정되는 것이 아니며, 이상의 설명은 본 발명의 개시 내용이 완전해지도록 하기 위한 것으로 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이며, 본 발명은 청구범위의 각 청구항에 의해서 정의될 뿐임을 알아야 한다.In addition, since the present invention can be implemented in various other forms, the present invention is not limited by the above description, and the above description is intended to complete the disclosure of the present invention and is common in the technical field to which the present invention belongs. It is only provided to completely inform those skilled in the art of the scope of the present invention, and it should be noted that the present invention is only defined by each claim of the claims.

100 : 이동 통신 단말
110 : 카메라
200 : 서버
210 : 통신부
220 : 학습부
230 : 측정부
240 : 저장부
1000 : 딥러닝 기반 음식 이미지 부피 측정 시스템
100: mobile communication terminal
110: camera
200: server
210: Ministry of Communication
220: learning unit
230: measurement unit
240: storage unit
1000: Deep learning-based food image volume measurement system

Claims (14)

이동 통신 단말의 카메라로 용기에 담겨진 음식을 촬영하는 제 1 단계;
촬영된 2차원의 이미지로부터 서버에 의해 3차원의 이미지 값을 추출하는 제 2 단계; 및
추출된 상기 이미지 값으로부터 상기 용기의 부피와, 상기 용기에 담겨진 음식의 양을 상기 서버에 의해 측정하는 제 3 단계;를 포함하며,
상기 3차원의 이미지 값은,
깊이 맵 추정 알고리즘인 홀 필링 알고리즘(Hole Filling Algorithm)을 이용하여 이미지의 깊이를 추정하고,
추정된 상기 이미지의 깊이에 Fast RCNN 기반의 딥러닝 학습 알고리즘을 적용하여 2차원의 이미지에서 3차원의 상기 이미지 값을 획득하며,
상기 Fast RCNN 기반의 딥러닝 학습 알고리즘은,
인코더 파트에 의해 특징 추출과 다운-샘플링을 수행하고,
디코더 파트에 의해 추출된 상기 특징들에 대한 연쇄(Concatenation) 연산과 컬러 이미지의 사이즈를 참조하여 업-샘플링 과정을 수행하며,
정답 레이블인 깊이 이미지 정보와 손실 함수를 통해 획득한 손실값을 최소화하는 방향으로 가중치가 업데이트되어 생성된 깊이맵 추정 데이터로부터 3차원 입체 이미지를 획득하는 것을 특징으로 하는,
딥러닝 기반 음식 이미지 부피 측정 방법.
A first step of photographing food contained in a container with a camera of a mobile communication terminal;
A second step of extracting a 3D image value from the captured 2D image by a server; and
A third step of measuring, by the server, the volume of the container and the amount of food contained in the container from the extracted image value;
The three-dimensional image value,
Estimating the depth of an image using a hole filling algorithm, which is a depth map estimation algorithm,
Obtaining the 3-dimensional image value from the 2-dimensional image by applying a Fast RCNN-based deep learning algorithm to the estimated depth of the image,
The Fast RCNN-based deep learning learning algorithm,
Perform feature extraction and down-sampling by the encoder part,
An up-sampling process is performed by referring to the concatenation operation of the features extracted by the decoder part and the size of the color image,
Characterized in that a 3D stereoscopic image is obtained from depth image information, which is the correct answer label, and depth map estimation data generated by updating weights in a direction that minimizes a loss value obtained through a loss function.
A deep learning-based food image volume measurement method.
삭제delete 제 1 항에 있어서,
상기 홀 필링 알고리즘은,
PGPF(Partial Gaussian Pooling and Filling) 알고리즘과, CVF(Cross Variation Filling) 알고리즘을 통해 수행되는 것을 특징으로 하는,
딥러닝 기반 음식 이미지 부피 측정 방법.
According to claim 1,
The hole filling algorithm,
Characterized in that it is performed through a Partial Gaussian Pooling and Filling (PGPF) algorithm and a Cross Variation Filling (CVF) algorithm,
A deep learning-based food image volume measurement method.
제 3 항에 있어서,
상기 PGPF는,
0이 아닌 부분만을 가지고 가우시안 마스크(Gaussian Mask)를 통해 풀링을 적용하고, 0인 부분만 다시 원래의 픽셀로 필링(Filling)을 시켜 경향성을 가진 픽셀들로 채우는 것을 특징으로 하는,
딥러닝 기반 음식 이미지 부피 측정 방법.
According to claim 3,
The PGPF,
Characterized in that, with only non-zero parts, pooling is applied through a Gaussian Mask, and only 0 parts are filled with pixels with a tendency by filling them with original pixels.
A deep learning-based food image volume measurement method.
제 4 항에 있어서,
상기 PGPF는 복수회 필터를 적용하여 원하는 결과가 나오도록 유도하는 것을 특징으로 하는,
딥러닝 기반 음식 이미지 부피 측정 방법.
According to claim 4,
The PGPF is characterized in that a plurality of filters are applied to induce a desired result.
A deep learning-based food image volume measurement method.
제 3 항에 있어서,
상기 CVF는,
상하와, 좌우의 변화량을 측정하여 비어있는 곳의 픽셀을 채워나가며, 상기 상하와, 좌우의 변화량의 평균을 통해 홀 필링을 수행하는 것을 특징으로 하는,
딥러닝 기반 음식 이미지 부피 측정 방법.
According to claim 3,
The CVF is
Characterized in that by measuring the amount of change in the top and bottom and left and right, filling in the empty pixels, and performing hole filling through the average of the amount of change in the top, bottom, and left and right.
A deep learning-based food image volume measurement method.
제 6 항에 있어서,
상기 상하와, 좌우의 변화량 중에 하나의 변화량만 유용할 경우, 유용한 변화량만 사용하는 것을 특징으로 하는,
딥러닝 기반 음식 이미지 부피 측정 방법.
According to claim 6,
Characterized in that, when only one variation among the vertical and horizontal variations is useful, only the useful variation is used.
A deep learning-based food image volume measurement method.
제 1 항에 있어서,
상기 홀 필링 알고리즘은,
상기 2차원의 이미지를 판독하는 제 1 단계(S1);
판독된 상기 2차원의 이미지를 임계값으로 설정하여 바이너리(이진화) 이미지를 획득하는 제 2 단계(S2);
획득된 바이너리 이미지로부터 각각의 스텝(Step) 사이의 차이점을 확인하며 픽셀(0, 0)에서 플러드 필(Flood Fill)을 수행하는 제 3 단계(S3);
상기 플러드 필이 수행된 이미지를 인버트(Invert)하는 제 4 단계(S4); 및
임계값 이미지를 결합하는 제 5 단계(S5);를 포함하여 수행되는 것을 특징으로 하는,
딥러닝 기반 음식 이미지 부피 측정 방법.
According to claim 1,
The hole filling algorithm,
a first step (S1) of reading the two-dimensional image;
a second step (S2) of obtaining a binary (binarized) image by setting the read two-dimensional image as a threshold value;
A third step (S3) of performing a flood fill on the pixel (0, 0) while checking the difference between each step from the acquired binary image;
a fourth step (S4) of inverting the flood-filled image; and
characterized in that it is performed including; a fifth step (S5) of combining the threshold image;
A deep learning-based food image volume measurement method.
삭제delete 제 1 항에 있어서,
상기 Fast RCNN 기반의 딥러닝 학습 알고리즘은,
특징 벡터(넓이와 높이)를 multi-task loss를 사용하여 분류(Classifier)와, 경계 상자 회귀(Bounding box regression)를 동시에 학습하며, 각각의 관심 영역에 대해 상기 multi-task loss를 사용하여 학습하는 것을 특징으로 하는,
딥러닝 기반 음식 이미지 부피 측정 방법.
According to claim 1,
The Fast RCNN-based deep learning learning algorithm,
Classifier and bounding box regression are simultaneously learned using multi-task loss for feature vectors (width and height), and learning using the multi-task loss for each region of interest characterized in that,
A deep learning-based food image volume measurement method.
제 10 항에 있어서,
상기 multi-task loss는,
사전 훈련된 네트워크를 초기화하는 제 1 단계(S10);
관심 영역을 선택적으로 검색하는 제 2 단계(S20);
특징을 추출하는 제 3 단계(S30);
관심 영역의 풀링에 의한 맥스 풀링(Max Pooling)을 수행하는 제 4 단계(S40);
특징 벡터를 추출하는 제 5 단계(S50);
분류(Class)를 예측하는 제 6 단계(S60);
경계 상자 회귀를 사용하여 경계 상자의 좌표를 변환함으로써 상기 특징 벡터의 위치를 조정하는 제 7 단계(S70); 및
상기 분류 및 상기 경계 상자 회귀를 동시에 학습하는 제 8 단계(S80)를 포함하여 수행되는 것을 특징으로 하는,
딥러닝 기반 음식 이미지 부피 측정 방법.
According to claim 10,
The multi-task loss,
A first step (S10) of initializing a pre-trained network;
A second step (S20) of selectively searching for a region of interest;
A third step (S30) of extracting features;
A fourth step (S40) of performing max pooling by pooling the region of interest;
A fifth step (S50) of extracting feature vectors;
A sixth step of predicting a class (S60);
a seventh step (S70) of adjusting the location of the feature vector by transforming the coordinates of the bounding box using bounding box regression; and
Characterized in that it is performed by including an eighth step (S80) of simultaneously learning the classification and the bounding box regression.
A deep learning-based food image volume measurement method.
삭제delete 제 1 항, 제 3 항 내지 제 8 항, 제 10 항, 제 11 항 중 어느 한 항에 따른 딥러닝 기반 음식 이미지 부피 측정 방법으로 음식 이미지의 부피를 측정하는 것을 특징으로 하는,
딥러닝 기반 음식 이미지 부피 측정 시스템.
Characterized in that the volume of the food image is measured by the deep learning-based food image volume measurement method according to any one of claims 1, 3 to 8, 10 and 11,
Deep learning based food image volume measurement system.
용기에 담겨진 음식을 촬영하는 이동 통신 단말의 카메라; 및
상기 이동 통신 단말의 카메라로 촬영된 2차원의 이미지로부터 3차원의 이미지 값을 추출하고, 추출된 상기 이미지 값으로부터 상기 용기의 부피와, 상기 용기에 담겨진 음식의 양을 측정하는 서버;를 포함하며,
상기 3차원의 이미지 값은,
깊이 맵 추정 알고리즘인 홀 필링 알고리즘(Hole Filling Algorithm)을 이용하여 이미지의 깊이를 추정하고,
추정된 상기 이미지의 깊이에 Fast RCNN 기반의 딥러닝 학습 알고리즘을 적용하여 2차원의 이미지에서 3차원의 상기 이미지 값을 획득하며,
상기 Fast RCNN 기반의 딥러닝 학습 알고리즘은,
인코더 파트에 의해 특징 추출과 다운-샘플링을 수행하고,
디코더 파트에 의해 추출된 상기 특징들에 대한 연쇄(Concatenation) 연산과 컬러 이미지의 사이즈를 참조하여 업-샘플링 과정을 수행하며,
정답 레이블인 깊이 이미지 정보와 손실 함수를 통해 획득한 손실값을 최소화하는 방향으로 가중치가 업데이트되어 생성된 깊이맵 추정 데이터로부터 3차원 입체 이미지를 획득하는 것을 특징으로 하는,
딥러닝 기반 음식 이미지 부피 측정 시스템.
A camera of a mobile communication terminal that photographs food contained in a container; and
A server that extracts a three-dimensional image value from a two-dimensional image taken by a camera of the mobile communication terminal and measures the volume of the container and the amount of food contained in the container from the extracted image value; ,
The three-dimensional image value,
Estimating the depth of an image using a hole filling algorithm, which is a depth map estimation algorithm,
Obtaining the 3-dimensional image value from the 2-dimensional image by applying a Fast RCNN-based deep learning algorithm to the estimated depth of the image,
The Fast RCNN-based deep learning learning algorithm,
Perform feature extraction and down-sampling by the encoder part,
An up-sampling process is performed by referring to the concatenation operation of the features extracted by the decoder part and the size of the color image,
Characterized in that a 3D stereoscopic image is obtained from depth image information, which is the correct answer label, and depth map estimation data generated by updating weights in a direction that minimizes a loss value obtained through a loss function.
Deep learning based food image volume measurement system.
KR1020220075337A 2022-06-21 2022-06-21 Method and system for measuring volume of food image based on deep learning KR102544742B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220075337A KR102544742B1 (en) 2022-06-21 2022-06-21 Method and system for measuring volume of food image based on deep learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220075337A KR102544742B1 (en) 2022-06-21 2022-06-21 Method and system for measuring volume of food image based on deep learning

Publications (1)

Publication Number Publication Date
KR102544742B1 true KR102544742B1 (en) 2023-06-20

Family

ID=86994798

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220075337A KR102544742B1 (en) 2022-06-21 2022-06-21 Method and system for measuring volume of food image based on deep learning

Country Status (1)

Country Link
KR (1) KR102544742B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101375018B1 (en) * 2012-11-22 2014-03-17 경일대학교산학협력단 Apparatus and method for presenting information of food using image acquisition
KR20160024419A (en) * 2014-08-25 2016-03-07 국방과학연구소 System and Method for identifying stereo-scopic camera in Depth-Image-Based Rendering
KR20190066361A (en) 2017-12-05 2019-06-13 주식회사 메디칼엑셀런스 Apparatus and method for color pattern analysis of food image in health care service

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101375018B1 (en) * 2012-11-22 2014-03-17 경일대학교산학협력단 Apparatus and method for presenting information of food using image acquisition
KR20160024419A (en) * 2014-08-25 2016-03-07 국방과학연구소 System and Method for identifying stereo-scopic camera in Depth-Image-Based Rendering
KR20190066361A (en) 2017-12-05 2019-06-13 주식회사 메디칼엑셀런스 Apparatus and method for color pattern analysis of food image in health care service

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
2015 ICCV, Ross Girshick* *
2020 인터넷정보학회,춘계학술발표대회, 배성현* *

Similar Documents

Publication Publication Date Title
CN111754513B (en) Product surface defect segmentation method, defect segmentation model learning method and device
CN109165645B (en) Image processing method and device and related equipment
US20190213481A1 (en) Predicting depth from image data using a statistical model
CN110111366A (en) A kind of end-to-end light stream estimation method based on multistage loss amount
US20160189381A1 (en) Signal detection, recognition and tracking with feature vector transforms
JP2022521844A (en) Systems and methods for measuring weight from user photos using deep learning networks
CN109640066B (en) Method and device for generating high-precision dense depth image
CN108447061B (en) Commodity information processing method and device, computer equipment and storage medium
US20160125626A1 (en) Method and an apparatus for automatic segmentation of an object
US20220405973A1 (en) Analysis of urine test strips with mobile camera analysys and providing recommendation by customising data
CN111524063A (en) Remote sensing image fusion method and device
CN112085801A (en) Calibration method for three-dimensional point cloud and two-dimensional image fusion based on neural network
CN112256899B (en) Image reordering method, related device and computer readable storage medium
CN111652884A (en) Human image segmentation method and system based on 3D camera
CN112101195A (en) Crowd density estimation method and device, computer equipment and storage medium
CN115205380A (en) Volume estimation method and device, electronic equipment and storage medium
US11756208B2 (en) Digital image boundary detection
KR102544742B1 (en) Method and system for measuring volume of food image based on deep learning
CN109255778B (en) Image processing method and apparatus, electronic device, storage medium, and program product
CN114627345A (en) Face attribute detection method and device, storage medium and terminal
CN110659641B (en) Text recognition method and device and electronic equipment
CN117237681A (en) Image processing method, device and related equipment
CN112668675A (en) Image processing method and device, computer equipment and storage medium
CN112364905A (en) Method for classifying and identifying GL value of fat R-CNN food based on attention mechanism SENET
Chen et al. Segmenting oil spills from blurry images based on alternating direction method of multipliers

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant