KR20240032288A - Apparatus and method for constructing a hybrid green tea learning dataset consisting of a quantitative green tea learning dataset generation module and a qualitative green tea learning dataset generation module - Google Patents
Apparatus and method for constructing a hybrid green tea learning dataset consisting of a quantitative green tea learning dataset generation module and a qualitative green tea learning dataset generation module Download PDFInfo
- Publication number
- KR20240032288A KR20240032288A KR1020220111102A KR20220111102A KR20240032288A KR 20240032288 A KR20240032288 A KR 20240032288A KR 1020220111102 A KR1020220111102 A KR 1020220111102A KR 20220111102 A KR20220111102 A KR 20220111102A KR 20240032288 A KR20240032288 A KR 20240032288A
- Authority
- KR
- South Korea
- Prior art keywords
- green tea
- learning data
- tea
- data set
- quality
- Prior art date
Links
- 244000269722 Thea sinensis Species 0.000 title claims abstract description 470
- 235000009569 green tea Nutrition 0.000 title claims abstract description 363
- 238000000034 method Methods 0.000 title claims abstract description 33
- 235000019640 taste Nutrition 0.000 claims abstract description 122
- 235000013616 tea Nutrition 0.000 claims abstract description 101
- 238000004519 manufacturing process Methods 0.000 claims abstract description 26
- 238000010276 construction Methods 0.000 claims abstract description 18
- 238000001228 spectrum Methods 0.000 claims abstract description 18
- 238000009826 distribution Methods 0.000 claims abstract description 9
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 5
- 238000013135 deep learning Methods 0.000 claims abstract description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 34
- 230000003416 augmentation Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000009193 crawling Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 claims description 7
- 229910052711 selenium Inorganic materials 0.000 claims description 7
- 239000011669 selenium Substances 0.000 claims description 7
- 238000013524 data verification Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000007790 scraping Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 8
- 238000011156 evaluation Methods 0.000 abstract description 7
- 238000013441 quality evaluation Methods 0.000 abstract description 5
- 238000013459 approach Methods 0.000 abstract description 3
- 230000035622 drinking Effects 0.000 abstract description 3
- 238000003908 quality control method Methods 0.000 abstract description 3
- 238000011179 visual inspection Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 13
- 235000006468 Thea sinensis Nutrition 0.000 description 7
- 235000020279 black tea Nutrition 0.000 description 7
- 238000002372 labelling Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000003306 harvesting Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013480 data collection Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 210000001525 retina Anatomy 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000855 fermentation Methods 0.000 description 2
- 230000004151 fermentation Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013124 brewing process Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/72—Data preparation, e.g. statistical preprocessing of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
본 발명에서는 차의 품질과 이에 대한 향유를 과학적으로 접근하지 못하는 경향으로 인해 글로벌 산업으로의 도약과 국내 차 애호가들의 다양한 소비를 만족하지 못하는 문제점과, 기존의 녹차 품질 평가 방법들이 녹차 제품들의 품질 규격화나 등급화를 위한 평가에 공인되고 표준화된 품질 평가 방법으로 선정되지 못함으로써 국내 차산업 발전에 걸림돌이 되는 문제점과, 녹차 맛을 결정하는 변인을 지금까지는 전문가의 육안 및 음용 후 감별하는 방식으로만 의존하였기에, 축적된 데이터가 부재하고 아날로그 방식에 따라 전문가별 편차 등이 존재하여 현재와 같은 방식으로는 다양한 소비자에게 맞춤형 차를 제공하지 못하는 문제점을 개선하고자, 정성적 녹차학습데이터셋 생성모듈(100), 정량적 녹차학습데이터셋 생성모듈(200)이 구성됨으로서, 기존에 없는 녹차 맛·품질에 관한 정성적 녹차학습데이터셋과 정량적 녹차학습데이터셋을 제공할 수 있어, 스마트앱, 인공지능 딥러닝과 연계된 녹차관련 홍보, 유통, 수출시스템구축에 손쉽게 응용시켜 적용시킬 수 있고, 국내 차 소비 규모 및 전남보성과 제주 한라에서 생산되는 양질의 차 대비, 글로벌 시장 점유율이 낮은 이유 중 하나로 제기되는 차 품질관리에 대한 정성적 방법의 한계를 극복하고, 과학적 차 생산 과정 및 유통에 필요한 기초 데이터로서, 활용도를 기존에 비해 1.5배~3배로 높일 수 있으며, 실제 차를 향유하는 소비자를 대상으로 차의 품질을 구분한 하, 중, 상의 녹차에 대한 소비자들의 맛 스펙트럼을 정량적 녹차학습데이터셋에 추가하여, 현장감과 생동감이 있는 녹차 맛·품질을 제공해 줄 수 있어, 녹차소비증진을 기존에 비해 80%향상시킬 수 있고, 맛, 향기, 찻물색, 마른 찻잎의 외형, 우린 잎의 형상으로 녹차의 품질을 평가할 때 각각의 평가 요소에 대해 녹차 소비자들이 중요시하는 우선순위와 가중치를 객관적이고 체계적으로 설정하여, 공급자중심의 녹차소비시장이 아닌, 소비자중심의 녹차소비시장을 새롭게 형성시킬 수 있는 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치 및 방법을 제공하는데 그 목적이 있다.In the present invention, the problem of not satisfying the leap into the global industry and the diverse consumption of domestic tea lovers due to the tendency not to scientifically approach the quality of tea and its enjoyment, and the existing green tea quality evaluation methods are used to standardize the quality of green tea products. The problem is that it is an obstacle to the development of the domestic tea industry as it has not been selected as a recognized and standardized quality evaluation method for evaluation for grading, and the variables that determine the taste of green tea have so far only been identified through visual inspection by experts and after drinking. In order to improve the problem of not being able to provide customized tea to various consumers with the current method due to the absence of accumulated data and the existence of deviations among experts depending on the analog method, a qualitative green tea learning data set creation module (100 ), By constructing the quantitative green tea learning data set creation module 200, it is possible to provide qualitative green tea learning data sets and quantitative green tea learning data sets related to green tea taste and quality that have not existed before, and can be used for smart apps and artificial intelligence deep learning. It can be easily applied to green tea-related promotion, distribution, and export system construction, and is raised as one of the reasons for the low global market share compared to the scale of domestic tea consumption and the high-quality tea produced in Boseong, Jeollanam-do and Halla, Jeju. It overcomes the limitations of qualitative methods for quality control, and as basic data necessary for the scientific tea production process and distribution, its utilization can be increased by 1.5 to 3 times compared to the existing one, and it is possible to increase the use of tea to consumers who actually enjoy tea. By adding consumers' taste spectrum for low, medium, and high quality green teas to the quantitative green tea learning data set, we can provide green tea taste and quality with realism and liveliness, increasing green tea consumption by 80% compared to before. When evaluating the quality of green tea based on taste, aroma, tea color, appearance of dried tea leaves, and shape of dried leaves, the priorities and weights that green tea consumers consider important for each evaluation factor are objectively and systematically set. , A hybrid green tea learning data set construction device and method consisting of a quantitative green tea learning data set creation module and a qualitative green tea learning data set creation module that can create a new consumer-oriented green tea consumption market rather than a supplier-oriented green tea consumption market. The purpose is to provide.
Description
본 발명은 스마트앱, 인공지능 딥러닝과 연계된 녹차관련 홍보, 유통, 수출시스템구축에 응용되어 적용되는 것으로, 보다 구체적으로는 녹차관련 웹·앱사이트에서 녹차 학습데이터를 수집하고, 그 수집한 데이터를 기반으로 녹차 맛·품질에 관한 정성적 녹차학습데이터셋을 생성시키고, 시기별 차잎데이터, 차 품질 전문가용 데이터, 소비자 기호 스펙트럼데이터, 차 생산지데이터를 기반으로 정량적 녹차학습데이터셋을 생성시키는 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치 및 방법에 관한 것이다.The present invention is applied to building a green tea-related promotion, distribution, and export system linked to smart apps and artificial intelligence deep learning. More specifically, it collects green tea learning data from green tea-related web and app sites, and collects the collected data. Based on data, a qualitative green tea learning dataset on green tea taste and quality is created, and a quantitative green tea learning dataset is created based on tea leaf data by period, data for tea quality experts, consumer preference spectrum data, and tea production area data. This relates to a hybrid green tea learning data set construction device and method consisting of a quantitative green tea learning data set creation module and a qualitative green tea learning data set creation module.
국내에서는 남녀노소 가리지 않고 즐겨찾는 음용제품으로 녹차와 홍차가 각광받고 있다. In Korea, green tea and black tea are in the spotlight as drinking products enjoyed by people of all ages.
반면, 건강과 기호(맛, 향 등)로 즐기는 녹차 산업은 국내 시장을 벗어나 글로벌로 성장하는데 한계를 맞고 있다. On the other hand, the green tea industry, which is enjoyed for health and preference (taste, aroma, etc.), is facing limitations in growing globally beyond the domestic market.
특히, 녹차에 대한 생산자와 소비자 각각의 취향과 높은 수준의 관심에 비해 그 품질에 대한 바로미터 또는 공통의 품질에 대한 컨센서스가 부족하다. In particular, compared to the tastes and high level of interest of producers and consumers in green tea, there is a lack of consensus on its quality or common quality.
이에 따라 차의 품질과 이에 대한 향유를 과학적으로 접근하지 못하는 경향으로 인해 글로벌 산업으로의 도약과 국내 차 애호가들의 다양한 소비를 만족하지 못한 실정이다. Accordingly, due to the tendency to not approach the quality and enjoyment of tea scientifically, it has not been able to satisfy the leap into the global industry and the diverse consumption of domestic tea lovers.
또한, 기존의 녹차 품질 평가 방법들이 녹차 제품들의 품질 규격화나 등급화를 위한 평가에 공인되고 표준화된 품질 평가 방법으로 선정되지 못함으로써 국내 차산업 발전에 걸림돌이 되고 있다.In addition, existing green tea quality evaluation methods are becoming an obstacle to the development of the domestic tea industry as they have not been selected as a recognized and standardized quality evaluation method for evaluating the quality of green tea products for standardization or grading.
그리고, 녹차 맛을 결정하는 변인을 지금까지는 전문가의 육안 및 음용 후 감별하는 방식으로만 의존하였기에, 축적된 데이터가 부재하고 아날로그 방식에 따라 전문가별 편차 등이 존재하여 현재와 같은 방식으로는 다양한 소비자에게 맞춤형 차를 제공하지 못하는 한계가 있었다. In addition, because the variables that determine the taste of green tea have so far only relied on experts' visual observation and differentiation after drinking, there is no accumulated data, and there are differences among experts depending on the analog method, so the current method is not suitable for various consumers. There were limitations in providing customized cars to customers.
상기의 문제점을 해결하기 위해 본 발명에서는 기존에 없는 녹차 맛·품질에 관한 정성적 녹차학습데이터셋과 정량적 녹차학습데이터셋을 제공할 수 있고, 국내 차 소비 규모 및 전남보성과 제주 한라에서 생산되는 양질의 차 대비, 글로벌 시장 점유율이 낮은 이유 중 하나로 제기되는 차 품질관리에 대한 정성적 방법의 한계를 극복하고, 과학적 차 생산 과정 및 유통에 필요한 기초 데이터로서, 활용도를 높일 수 있으며, 실제 차를 향유하는 소비자를 대상으로 차의 품질을 구분한 하, 중, 상의 녹차에 대한 소비자들의 맛 스펙트럼을 정량적 녹차학습데이터셋에 추가하여, 현장감과 생동감이 있는 녹차 맛·품질을 제공해 줄 수 있고, 맛, 향기, 찻물색, 마른 찻잎의 외형, 우린 잎의 형상으로 녹차의 품질을 평가할 때 각각의 평가 요소에 대해 녹차 소비자들이 중요시하는 우선순위와 가중치를 객관적이고 체계적으로 설정할 수 있는 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치 및 방법을 제공하는데 그 목적이 있다.In order to solve the above problems, the present invention can provide a qualitative green tea learning data set and a quantitative green tea learning data set regarding the taste and quality of green tea that do not exist before, and the size of domestic tea consumption and the tea produced in Boseong, Jeollanam-do and Halla, Jeju. It overcomes the limitations of qualitative methods for tea quality control, which are raised as one of the reasons for the low global market share compared to high-quality tea, and increases utilization as basic data necessary for the scientific tea production process and distribution, and enables actual tea By adding consumers' taste spectrum for low, medium, and high green tea, which classifies the quality of tea for consumers, to the quantitative green tea learning data set, we can provide green tea taste and quality with a sense of realism and liveliness. , a quantitative green tea learning data set that can objectively and systematically set the priorities and weights that green tea consumers value for each evaluation factor when evaluating the quality of green tea based on aroma, tea color, appearance of dried tea leaves, and shape of fresh leaves. The purpose is to provide a hybrid green tea learning data set construction device and method consisting of a generation module and a qualitative green tea learning data set generation module.
상기의 목적을 달성하기 위해 본 발명에 따른 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치는In order to achieve the above objective, a hybrid green tea learning data set construction device consisting of a quantitative green tea learning data set generation module and a qualitative green tea learning data set generation module according to the present invention is provided.
녹차 학습데이터를 수집하고, 수집한 데이터를 레이블링작업을 함과 동시에, 데이터의 양을 증가시키고, 검증을 통해 정성적 녹차학습데이터셋을 생성시키는 정성적 녹차학습데이터셋 생성모듈(100)과,A qualitative green tea learning data set generation module 100 that collects green tea learning data, labels the collected data, increases the amount of data, and generates a qualitative green tea learning data set through verification;
시기별 차잎데이터, 차 품질 전문가용 데이터, 소비자 기호 스펙트럼데이터, 차 생산지데이터를 기반으로 정량적 녹차학습데이터셋을 생성시키는 정량적 녹차학습데이터셋 생성모듈(200)로 구성됨으로서 달성된다.This is achieved by being composed of a quantitative green tea learning data set generation module 200 that generates a quantitative green tea learning data set based on tea leaf data by period, data for tea quality experts, consumer preference spectrum data, and tea production area data.
이상에서 설명한 바와 같이, 본 발명에서는As described above, in the present invention
첫째, 기존에 없는 녹차 맛·품질에 관한 정성적 녹차학습데이터셋과 정량적 녹차학습데이터셋을 제공할 수 있어, 스마트앱, 인공지능 딥러닝과 연계된 녹차관련 홍보, 유통, 수출시스템구축에 손쉽게 응용시켜 적용시킬 수 있다.First, it can provide qualitative green tea learning data sets and quantitative green tea learning data sets on green tea taste and quality that have never existed before, making it easy to build green tea-related promotion, distribution, and export systems linked to smart apps and artificial intelligence deep learning. It can be applied and applied.
둘째, 국내 차 소비 규모 및 전남보성과 제주 한라에서 생산되는 양질의 차 대비, 글로벌 시장 점유율이 낮은 이유 중 하나로 제기되는 차 품질관리에 대한 정성적 방법의 한계를 극복하고, 과학적 차 생산 과정 및 유통에 필요한 기초 데이터로서, 활용도를 기존에 비해 1.5배~3배로 높일 수 있다.Second, overcome the limitations of qualitative methods for tea quality control, which is one of the reasons for the low global market share compared to the scale of domestic tea consumption and high-quality tea produced in Boseong, Jeollanam-do and Halla, Jeju, and develop a scientific tea production process and distribution. As basic data needed, its usability can be increased by 1.5 to 3 times compared to existing data.
셋째, 실제 차를 향유하는 소비자를 대상으로 차의 품질을 구분한 하, 중, 상의 녹차에 대한 소비자들의 맛 스펙트럼을 정량적 녹차학습데이터셋에 추가하여, 현장감과 생동감이 있는 녹차 맛·품질을 제공해 줄 수 있어, 녹차소비증진을 기존에 비해 80%향상시킬 수 있다.Third, by adding consumers' taste spectrum for low, medium, and high green tea, which classifies tea quality for consumers who actually enjoy tea, to the quantitative green tea learning dataset, we provide green tea taste and quality with a sense of realism and liveliness. This can increase green tea consumption by 80% compared to before.
넷째, 맛, 향기, 찻물색, 마른 찻잎의 외형, 우린 잎의 형상으로 녹차의 품질을 평가할 때 각각의 평가 요소에 대해 녹차 소비자들이 중요시하는 우선순위와 가중치를 객관적이고 체계적으로 설정하여, 공급자중심의 녹차소비시장이 아닌, 소비자중심의 녹차소비시장을 새롭게 형성시킬 수 있다.Fourth, when evaluating the quality of green tea based on taste, aroma, tea color, appearance of dried tea leaves, and shape of fresh leaves, the priorities and weights that green tea consumers consider important for each evaluation factor are objectively and systematically set, and supplier-centered It is possible to create a new consumer-centered green tea consumption market, rather than the green tea consumption market of .
이하, 본 발명에 따른 바람직한 실시예를 도면을 첨부하여 설명한다.Hereinafter, a preferred embodiment according to the present invention will be described with accompanying drawings.
도 1은 본 발명에 따른 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치(1)의 구성요소를 도시한 블럭도에 관한 것이고, 도 2는 본 발명에 따른 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치(1)를 도시한 구성도에 관한 것으로, 이는 정성적 녹차학습데이터셋 생성모듈(100), 정량적 녹차학습데이터셋 생성모듈(200)로 구성된다.Figure 1 is a block diagram showing the components of a hybrid green tea learning data set construction device 1 consisting of a quantitative green tea learning data set generation module and a qualitative green tea learning data set generation module according to the present invention, and Figure 2 It relates to a configuration diagram showing a hybrid green tea learning data set construction device (1) consisting of a quantitative green tea learning data set generation module and a qualitative green tea learning data set generation module according to the present invention, which is a qualitative green tea learning data set. It consists of a generation module (100) and a quantitative green tea learning data set generation module (200).
먼저, 본 발명에 따른 정성적 녹차학습데이터셋 생성모듈(100)에 관해 설명한다.First, the qualitative green tea learning data set generation module 100 according to the present invention will be described.
상기 정성적 녹차학습데이터셋 생성모듈(100)은 녹차 학습데이터를 수집하고, 수집한 데이터를 레이블링작업을 함과 동시에, 데이터의 양을 증가시키고, 검증을 통해 정성적 녹차학습데이터셋을 생성시키는 역할을 한다.The qualitative green tea learning data set generation module 100 collects green tea learning data, labels the collected data, increases the amount of data, and generates a qualitative green tea learning data set through verification. It plays a role.
이는 범주 또는 순서 형태의 속성을 가지는 자료로 구성된다.It consists of data that has attributes in the form of categories or orders.
그리고, 녹차 맛·품질 인식 모델을 생성하기 위해, 녹차 맛·품질 이미지 데이터가 필요하다.Additionally, in order to create a green tea taste/quality recognition model, green tea taste/quality image data is needed.
본 발명에서는 녹차 맛·품질 이미지를 녹차 맛, 녹차 품질, 찻잎 수확시기, 녹차 재배 지역, 차 종류, 녹차 제품으로 세세하게 담은 학습데이터셋으로 구성하기 위해, 녹차관련 웹·앱사이트에서 녹차 학습데이터를 수집하고, 녹차 맛·품질에 관한 최적의 녹차 맛·품질 인식 인식 모델을 생성하기 위해 정성적 녹차학습데이터셋이 구성된다.In the present invention, green tea learning data is collected from green tea-related web and app sites to construct green tea taste and quality images into a learning data set containing detailed information on green tea taste, green tea quality, tea leaf harvest time, green tea cultivation area, tea type, and green tea product. A qualitative green tea learning dataset is constructed to collect and create an optimal green tea taste and quality recognition recognition model.
상기 정성적 녹차학습데이터셋 생성모듈(100)은 크게, 도 3에 도시한 ㅂ바방바와 같이, Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부(110), 어그멘테이션(Augmentation)부(120), 정성적 녹차학습데이터셋 생성제어부(130)로 구성된다.The qualitative green tea learning data set generation module 100 is largely divided into a Green Tea Images Annotation Tool type GUI program engine unit 110 and an augmentation unit 120, as shown in FIG. 3. , It consists of a qualitative green tea learning data set generation control unit 130.
첫째, 본 발명에 따른 GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부(110)에 관해 설명한다.First, the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit 110 according to the present invention will be described.
상기 GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부(110)는 녹차 학습데이터를 수집하고, 수집한 데이터를 레이블링작업을 함과 동시에, 학습데이터의 구성을 위한 전체적인 작업을 하나의 프로그램에서 구동시켜 녹차에 관한 학습데이터를 형성시키는 역할을 한다.The GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit 110 collects green tea learning data, labels the collected data, and runs the overall task of configuring the learning data in one program. It plays a role in forming learning data about green tea.
먼저, 녹차 맛·품질 이미지 객체 인식을 위해서 학습데이터에 대한 정보를 알아야 하므로, 기존의 프로그램들과 같은 어노테이션 형식을 알아야 한다.First, since you need to know information about the learning data to recognize green tea taste and quality image objects, you need to know the annotation format like existing programs.
그리고, 녹차 맛·품질 이미지 데이터가 있어야 주석 단계도 수행할 수 있다.Additionally, the annotation step can only be performed if there is green tea taste and quality image data.
하지만, 국산 녹차 맛·품질 이미지를 일일이 수집하는 것은 많은 시간이 들어간다.However, it takes a lot of time to individually collect images of the taste and quality of domestic green tea.
그러므로, 본 발명에서는 녹차학습데이터를 수집하고, 수집한 데이터를 레이블링 작업을 함과 동시에 데이터의 양을 증가시키는 어그멘테이션(Augmentation) 기능까지, 정성적 녹차학습데이터셋의 구성을 위한 전체적인 작업을 하나의 프로그램에서 할 수 있는 GUI(Graphic User Interface) 프로그램인 GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램엔진부로 구성된다.Therefore, in the present invention, the overall work to construct a qualitative green tea learning data set is performed, including collecting green tea learning data, labeling the collected data, and an augmentation function to increase the amount of data. It consists of a GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit, which is a GUI (Graphic User Interface) program that can be done in one program.
상기 GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램엔진부는 다른 레이블링 프로그램에 없는 크롤링 모듈과 준자동화 객체 인식 기능이 추가로 구성된다.The GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit is additionally configured with a crawling module and semi-automated object recognition function that are not present in other labeling programs.
그리고, 데이터 수집을 위한 크롤링 모듈을 구현하기 위해 셀레니움(Selenium)을 기반으로 리퀘스트(Requests) 모듈을 활용하여 원하는 녹차 맛·품질 이미지를 가지고 올 수 있도록 구성된다.In addition, in order to implement a crawling module for data collection, the Requests module is used based on Selenium to retrieve the desired green tea taste and quality image.
또한, 준자동화 레이블링 작업을 위한 녹차학습데이터 인식을 위해 텐서플로(Tensorflow)(111)와 케라스 레티나넷(Keras-RetinaNet) 모듈(112)이 구성된다.In addition, Tensorflow (111) and Keras-RetinaNet module (112) are configured to recognize green tea learning data for semi-automated labeling work.
상기 텐서플로(Tensorflow)(111)는 다양한 작업에대해 데이터 흐름 프로그래밍을 위한 오픈소스 소프트웨어 라이브러리역할을 수행한다.The Tensorflow 111 serves as an open source software library for data flow programming for various tasks.
상기 케라스 레티나넷(Keras-RetinaNet) 모듈(112)은 사전학습된 coco모델을 로드하고, 이를 이용하여 객체검출을 수행하는 역할을 한다. 이는 사전 학습된 모델의 특징을 가중치의 초기값으로 이용하고, 학습데이터를 이용해서 새로운 모델을 생성시키는 전이학습을 수행시킨다.The Keras-RetinaNet module 112 loads a pre-trained coco model and performs object detection using it. This uses the characteristics of the pre-trained model as the initial value of the weight and performs transfer learning to create a new model using the learning data.
상기 GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부의 인터페이스는 피톤(Python)에 기본으로 내장되어 있는 티킨터(Tkinter)부로 이루어진다.The interface of the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit consists of the Tkinter unit built into Python by default.
즉, GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부를 구성하는 인터페이스창, 조작 버튼을 형성시키기 위해, 티킨터(Tkinter)부의 위젯기능과 함께, 각 기능의 역할을 할 수 있는 함수(command=self.module)형태가 포함되어 구성된다.In other words, in order to form the interface window and operation buttons that make up the GTIAT (Green Tea Images Annotation Tool) type GUI program engine part, a function (command= It is composed of the form self.module).
상기 GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부(110)는 도 4에 도시한 바와 같이, 크롤링·스크랩핑 모듈(113), 셀레니움(Selenium) 모듈(114)이 포함되어 구성된다.As shown in FIG. 4, the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit 110 includes a crawling/scraping module 113 and a Selenium module 114.
상기 크롤링·스크랩핑 모듈(113)은 웹·앱페이지에서 사용자가 원하는 데이터를 수집하는 역할을 한다.The crawling/scraping module 113 serves to collect data desired by the user from web/app pages.
이는 피톤(Python) 기반의 라이브러리가 주류를 이룬다.This is mainly done by Python-based libraries.
이는 리퀘스트(requests)모듈, 뷰티풀스프(BeautifulSoup) 중 어느 하나가 선택되어 구성된다.This is configured by selecting either the requests module or BeautifulSoup.
상기 셀레니움(Selenium) 모듈(114)은 웹·앱 브라우저(Web Browser)의 드라이버를 활용하여 웹·앱 브라우저상에서 데이터를 수집하는 역할을 한다.The Selenium module 114 serves to collect data on the web/app browser by utilizing the driver of the web/app browser.
이는 심층적 데이터에 접근이 용이하다.This makes it easy to access in-depth data.
원래 셀레니움(Selenium)은 웹·앱 브라우저를 테스트하는 모듈이었지만, 점차적으로 데이터 수집에 관심이 커지면서 데이터를 수집모듈로 활용된다.Originally, Selenium was a module for testing web and app browsers, but as interest in data collection gradually grew, it was used as a data collection module.
이는 피톤(Pyton) 라이브러리의 형태로 제공되며, 위와 같은 명령어를 통해서 사용하는 환경에 설치된다.This is provided in the form of a Python library, and is installed in the environment through the above command.
또한 라이브러리를 설치했다면, 해당 브라우저(Brower)의 사이트에 접속하여, 드라이버를 설치한다.Also, if you have installed the library, access the browser's site and install the driver.
본 발명에서는 크롬(Chrome) 드라이버를 사용하도록 구성된다.The present invention is configured to use the Chrome driver.
드라이버의 형태는 .exe 파일로 제공된다. 사용하는 환경에 드라이버 파일을 위치해 둔다.The driver is provided as an .exe file. Place the driver file in the environment you are using.
셀레니움(Selenium)을 통해, 데이터를 수집할 환경 구성이 끝났다면, 피톤(Phthon)을 활용하여 원하는 녹차 맛·품질 이미지가 있는 웹·앱 사이트 접속 및 데이터의 접근할 수 있는 기능을 구성한다.Once you have completed configuring the environment to collect data through Selenium, use Phthon to configure functions that allow you to connect to web and app sites with images of the desired green tea taste and quality and access the data.
데이터를 수집하기 전, 반드시 해당 녹차관련 웹·앱사이트의 페이지가 크롤링 및 스크랩핑을 할 수 있는 곳인지를 확인한다.Before collecting data, be sure to check whether the page of the green tea-related web or app site can be crawled and scraped.
일예로, "http://www.example.com/robots.txt"For example, "http://www.example.com/robots.txt"
해당 웹·앱 페이지 주소에 '/robots.txt'를 붙여서 접속해보면, 웹·앱 페이지에 있는 데이터를 수집할 수 있는 허용 범위가 나온다.If you connect by adding '/robots.txt' to the web/app page address, you will see the allowable range for collecting data on the web/app page.
디쉘로우(Disallow) 부분은 웹·앱 사이트의 구성 부분에서 크롤링, 스크랩핑이 허용 안되는 부분을 뜻한다.The Disallow part refers to the part of the web/app site where crawling and scraping are not allowed.
크롤링 허용 범위를 체크한 후, 녹차관련 웹·앱사이트의 녹차 맛·품질 이미지를 가져온다.After checking the crawling range, we retrieve green tea taste and quality images from green tea-related websites and app sites.
셀레니움(Selenium)의 'find_element(s)'함수에서 해당 웹·앱 페이지가 구성하는 html, CSS의 태크(Tag) 및 속성들을 파악하여 입력하면, 원하는 데이터에 접근할 수 있다.By identifying and entering the HTML and CSS tags and properties that the web/app page consists of in Selenium's 'find_element(s)' function, you can access the desired data.
녹차관련 웹·앱사이트에서 해상도가 큰 녹차의 녹차 맛·품질 이미지는 복잡한 구조로 위치해 있기 때문에, 원하는 녹차 맛·품질 이미지 데이터가 위치한 html, css 요소를 파악하여 입력한다.Since the green tea taste and quality images of high-resolution green tea on green tea-related web and app sites are located in a complex structure, identify and input the html and CSS elements where the desired green tea taste and quality image data is located.
'execute_script'의 기능은 웹·앱 페이지의 페이지가 여러 페이지로 구성되어 있다면 끝 페이지까지 이동할 수 있도록 한다.The 'execute_script' function allows you to move to the last page if the web/app page consists of multiple pages.
본 발명에서는 녹차관련 웹·앱사이트로서, 국내의 유명 사이트('녹차월드', '녹차나라', '선다원', '대한다원')에서, 시기별, 지역별, 고객맛평가별로 사용자가 녹차의 녹차 맛·품질 이미지를 수집하도록 구성된다.In the present invention, it is a green tea-related web/app site, where users can purchase green tea by period, region, and customer taste evaluation on famous domestic sites ('Green Tea World', 'Green Tea Nara', 'Seon Dawon', and 'Daehan Dawon'). It is designed to collect images of green tea taste and quality.
티킨터(Tkinter)부의 위젯의 '버튼(Button)' 기능과 연동하여, GTIAT 프로그램에서 사용자가 원하는 녹차관련 웹·앱사이트의 버튼 클릭만으로 현재 판매되고 있는 녹차의 녹차 맛·품질 이미지, 또는 고객이 맛으로 평가한 녹차의 녹차 맛·품질 이미지를 가져올 수 있도록 구성된다.By linking with the 'Button' function of the widget in the Tkinter section, the GTIAT program provides images of the taste and quality of green tea currently being sold, or customers It is designed to provide an image of the taste and quality of green tea evaluated by taste.
그리고, 녹차 맛·품질 이미지 데이터를 수집하기 위해 녹차관련 웹·앱사이트를 대상으로 모듈을 구현했지만, 사용자가 다른 웹·앱 사이트에서도 녹차 맛·품질 이미지 데이터도 가져올 수 있도록 하기 위해, 키워드 검색 방식의 크롤러(Crawler) 모듈을 다운로드하고, 연동하도록 구성된다.In order to collect green tea taste and quality image data, we implemented a module targeting green tea-related web and app sites, but in order to allow users to also retrieve green tea taste and quality image data from other web and app sites, we used a keyword search method. It is configured to download and link the Crawler module.
키워드 검색용 크롤러는 icrawler 라이브러리로 해당 환경에서 설치하면, 구글(Google), 바이두(Baidu), 빙(Bing), 플릭크(flickr) 등의 녹차 맛·품질 이미지 검색이 가능하다.The keyword search crawler is the icrawler library, and if installed in the appropriate environment, you can search for green tea taste and quality images from Google, Baidu, Bing, and Flickr.
또한, 상기 GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부(110)는 구글 녹차 맛·품질 이미지 검색이 가능하도록, 위젯과 연동하여 검색 형태의 크롤러가 포함되어 구성된다. In addition, the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit 110 is configured to include a search type crawler in conjunction with a widget to enable Google green tea taste and quality image search.
둘째, 본 발명에 따른 어그멘테이션(Augmentation)부(120)에 관해 설명한다.Second, the augmentation unit 120 according to the present invention will be described.
상기 어그멘테이션(Augmentation)부(120)는 GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부를 통해 형성시킨 녹차에 관한 학습데이터에다가 학습 효과를 높이기 위해서, 녹차 맛·품질 이미지 데이터의 양을 증가시키는 역할을 한다.The augmentation unit 120 increases the amount of green tea taste and quality image data in order to increase the learning effect in addition to the learning data about green tea formed through the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit. It plays a role.
이는 OpenCV 및 다양한 API를 활용하여 녹차 맛·품질 이미지의 다양하게 효과를 줄 수 있도록 구성된다.This is configured to provide various effects on green tea taste and quality images by utilizing OpenCV and various APIs.
원본의 녹차 맛·품질 이미지를 회전하거나, 사이즈를 확대하는 변형을 트래디셔널 어그멘테이션(Traditional Augmentation)이라 부르는데, 분류의 문제에서 좋은 성능을 발휘한다.Transformation that rotates or enlarges the original green tea taste and quality image is called traditional augmentation, and it shows good performance in classification problems.
즉, 녹차 맛·품질 이미지가 영상 밖으로 크게 벗어나는 것을 피하기 위해, 0,15,30,150,165,180,195,210,330,345도를 변환하도록 구성된다.In other words, in order to avoid the green tea taste and quality image being significantly outside the image, it is configured to convert 0, 15, 30, 150, 165, 180, 195, 210, 330, and 345 degrees.
회전에 의해 생긴 빈 공간에는 0으로 채운다. 이 변환으로 정성적 녹차학습데이터셋의 크기는 10배로 증가된다.The empty space created by rotation is filled with 0. This transformation increases the size of the qualitative green tea learning dataset by 10 times.
녹차 맛·품질 이미지 어그멘테이션의 적용은 GTIAT 프로그램에서 사용자가 크롤링 모듈을 통해 수집한 녹차 맛·품질 이미지를 바로 어그멘테이션 효과를 적용할 수 있도록 프로그램 내에 구성된다.The application of green tea taste and quality image augmentation is structured within the program so that users can directly apply the augmentation effect to the green tea taste and quality images collected through the crawling module in the GTIAT program.
녹차 맛·품질 이미지 데이터에 어그멘테이션(Augmentation)을 하는 이유는 데이터의 양을 부풀림으로써 학습 모델의 성능을 더욱 높이기 위한 방법이다.The reason for augmenting green tea taste and quality image data is to further increase the performance of the learning model by inflating the amount of data.
실제로 VGG 모델의 성능 평가에서도 같은 사진을 사이즈만 달리 구성해서 입력했는데도 에러율은 3~5% 까지 줄었다.In fact, in the performance evaluation of the VGG model, the error rate was reduced to 3-5% even when the same photo was input in a different size.
데이터의 원본에서 추가하는 개념으로 특히, 녹차 맛·품질 이미지의 패턴을 제공하는 효과와 같아서 성능을 높여줄 수 있다.This is a concept that is added from the source of data, and in particular, it can improve performance as it has the effect of providing patterns for green tea taste and quality images.
특히, 원본 데이터의 회전이나 확대 등의 일반적인 어그멘테이션(Augmentation)은 단순 분류(Classification)에서 성능을 최대로 높인다.In particular, general augmentation, such as rotation or enlargement of the original data, maximizes performance in simple classification.
정성적 녹차학습데이터셋을 구현한 녹차관련 웹·앱사이트 크롤링 모듈에서 수집하고, 어그멘테이션(Augmentation)까지 수행한 후, 녹차 맛·품질 이미지 데이터의 저장구조는 도 에 도시한 바와 같다.After collecting from the green tea-related web and app site crawling module that implemented the qualitative green tea learning data set and performing augmentation, the storage structure of the green tea taste and quality image data is as shown in figure.
먼저, 사용자가 GTIAT 프로그램에서 선택한 녹차관련 웹·앱사이트 폴더 내에서 수집한 녹차 맛·품질 이미지를 저장한다.First, the green tea taste and quality images collected from the green tea-related web/app site folder selected by the user in the GTIAT program are saved.
이때 녹차제품별, 시기별, 지역별, 발효별, 제조과정별 이름에 따라 저장이 되면, 4가지~20가지의 폴더로 구성된다.At this time, when green tea is saved according to the name of product, period, region, fermentation, and manufacturing process, it is composed of 4 to 20 folders.
'Thumbnail'폴더에는 녹차관련 웹·앱사이트에서 썸네일 녹차 맛·품질 이미지로 있는 작은 사이지의 녹차 맛·품질 이미지 데이터를 저장한다.The 'Thumbnail' folder stores small-sized green tea taste and quality image data as thumbnail green tea taste and quality images on green tea-related web and app sites.
'Big' 폴더는 썸네일 녹차 맛·품질 이미지의 같은 형태의 녹차 맛·품질 이미지이지만, 해상도가 훨씬 높은 녹차 맛·품질 이미지형태로서 저장한다.The 'Big' folder is the same type of green tea taste/quality image as the thumbnail green tea taste/quality image, but is stored as a green tea taste/quality image with much higher resolution.
'Detail' 폴더는 녹차판매에서 사이트에서 녹차를 게시한 자세한 페이지로 접속하여 썸네일과는 다른 방향과 형태의 녹차 맛·품질 이미지를 높은 해상도로 저장한다.The 'Detail' folder connects to the detailed page where green tea is posted on the green tea sales site and stores high-resolution images of the taste and quality of green tea in a different direction and form than the thumbnail.
마직막으로 'Aug'폴더는 'Big' 폴더의 녹차 맛·품질 이미지들을 어그멘테이션(Augmentation)의 다양한 효과들을 무작위(random)로 적용시킨다.Finally, the 'Aug' folder randomly applies various augmentation effects to the green tea taste and quality images in the 'Big' folder.
셋째, 본 발명에 따른 정성적 녹차학습데이터셋 생성제어부(130)에 관해 설명한다.Third, the qualitative green tea learning data set generation control unit 130 according to the present invention will be described.
상기 정성적 녹차학습데이터셋 생성제어부(130)는 GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부를 통해 형성된 녹차에 관한 학습데이터와, 어그멘테이션(Augmentation)부를 통해 증가된 녹차 맛·품질 이미지 데이터를 검증한 후, 정성적 녹차학습데이터셋을 생성시키도록 제어시키는 역할을 한다.The qualitative green tea learning data set generation control unit 130 includes learning data about green tea formed through a GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit and green tea taste and quality images increased through an augmentation unit. After verifying the data, it controls it to generate a qualitative green tea learning dataset.
상기 정성적 녹차학습데이터셋은 데이터모음으로서, 하나의 데이터베이스 테이블의 내용이나 하나의 통계적 자료 행렬과 일치시키는 것을 말한다.The qualitative green tea learning data set is a collection of data that matches the contents of one database table or one statistical data matrix.
이는 컬럼(column)과 로우(row)로 이루어진다.It consists of columns and rows.
상기 컬럼(column)은 특정한 변수를 대표하고, 로우(row)에는 주어진 멤버와 일치시키도록 구성된다.The column represents a specific variable, and the row is configured to match a given member.
그리고, 변수 개개의 값들을 나열하고, 각각의 값은 데이터라고 부른다.Then, the values of each variable are listed, and each value is called data.
하나 이상의 멤버에 대한 데이터를 이루며, 로우의 수와 일치시킨다.It constitutes data for one or more members and matches the number of rows.
상기 데이터 세트(data set)는 데이터 객체(data objet)들의 집합으로서, 데이터객체(data objet)는 레코드(record), 점(point), 벡터(vector), 패턴(pattern), 사례(case), 사건(event), 샘플(sample), 관찰(observation), 개체(entity) 등으로 이루어진다.The data set is a set of data objects, and the data objects include records, points, vectors, patterns, cases, It consists of events, samples, observations, entities, etc.
본 발명에서는 녹차 맛·품질 객체, 이상상태의 녹차 객체를 데이터객체(data objet)로 설정된다.In the present invention, the green tea taste/quality object and the green tea object in an abnormal state are set as data objects.
상기 데이터객체(data objet)는 여러개의 속성(attribute)으로 이루어지고, 그 속성(attribute)은 데이터 개체들 사이의 차이를 규정할 수 있는 특성이나 특징을 의미한다.The data object consists of several attributes, and the attribute refers to a characteristic or feature that can define differences between data objects.
속성(attribute)은 변수(variable), 특성(characteristic), 필드(field), 특징(feature), 차원(dimension) 등으로 불린다.Attributes are called variables, characteristics, fields, features, dimensions, etc.
상기 정성적 녹차학습데이터셋의 구성은 "원본데이터", "원본데이터+회전, 크롭, gray-scale", "원본데이터+Noise+Weather" 중 어느 하나가 선택되어 구성된다.The qualitative green tea learning dataset is configured by selecting one of “original data”, “original data + rotation, crop, gray-scale”, and “original data + Noise + Weather”.
그리고, 원본데이터는 컬럼(column)과 에, 폴더명을 나타내는 'folder'와, 원본데이터명을 나타내는 'filename'과, 버전 정보를 나타내는 'source'와, 영상크기정보를 나타내는 'size'와, 시나리오정보를 나타내는 'header'와, 이벤트정보를 나타내는 'event'와, 녹차 맛·품질 객체를 나타내는 'object'와, 데이타베이스 버전명을 나타내는 'database'와, 주석 구조의 이름을 나타내는 'annotation'과, 이미지 또는 영상의 width 값을 나타내는 'width'와, 이미지 또는 영상의 heights값을 나타내는 'height'와, 이미지 또는 영상의 channels값을 나타내는 'depth'와, 초당 프레임수를 나타내는 'duration'과, 총 프레임수를 나타내는 'frames'와, 녹차의 재배장소 및 위치를 나태는 'location'과, 날씨를 나타내는 'weather'와, 시간대를 나타내는 'time'과, 녹차의 이상상태에 따른 병명을 나타내는 'eventname'과, 이상상태의 녹차 객체를 나타내는 'objectname'과, 이상상태의 녹차가 있는 곳의 위치를 나타내는 'position'과, 녹차 객체의 위치정보를 나타내는 'positionframe'과, positionframe에서 녹차객체의 위치를 나타내는 'keypoint'와, keypoint의 x축좌표를 나타내는 'x'와, keypoint의 y축좌표를 나타내는 'y'와, frame의 시작지점을 나타내는 'start'와, frame의 종료지점을 나타내는 'end'로 구성된다.And, the original data consists of a column, 'folder' indicating the folder name, 'filename' indicating the original data name, 'source' indicating version information, and 'size' indicating video size information, 'header' representing scenario information, 'event' representing event information, 'object' representing green tea taste/quality object, 'database' representing the database version name, and 'annotation' representing the name of the annotation structure. and ‘width’, which represents the width value of the image or video, ‘height’, which represents the height value of the image or video, ‘depth’ which represents the channel value of the image or video, and ‘duration’ which represents the number of frames per second. , 'frames' indicating the total number of frames, 'location' indicating the cultivation place and location of green tea, 'weather' indicating the weather, 'time' indicating the time zone, and disease name indicating abnormal condition of green tea. 'eventname', 'objectname' indicating the green tea object in an abnormal state, 'position' indicating the location of the green tea in an abnormal state, 'positionframe' indicating the location information of the green tea object, and the location of the green tea object in the position frame. 'keypoint' indicating the position, 'x' indicating the x-axis coordinate of the keypoint, 'y' indicating the y-axis coordinate of the keypoint, 'start' indicating the start point of the frame, and ' It consists of ‘end’.
상기 정성적 녹차학습데이터셋 생성제어부는 저장한 녹차 맛·품질 이미지 학습데이터를 네트워크에 학습하기 위해, 레이블링 작업이 필요하다.The qualitative green tea learning data set generation control unit requires labeling in order to learn the stored green tea taste and quality image learning data into the network.
상기 정성적 녹차학습데이터셋 생성제어부(130)는 도 6에 도시한 바와 같이, 녹차 맛·품질 인식용 주석(Annotation) 제어부(131), 레티나넷(RetinaNet)형 녹차 맛·품질 인식제어부(132), 주석(Annotaion) 형식 포밍제어부(133), 정성적 녹차학습데이터 검증제어부(134)로 구성된다.As shown in FIG. 6, the qualitative green tea learning data set generation control unit 130 includes an annotation control unit 131 for green tea taste and quality recognition, and a RetinaNet-type green tea taste and quality recognition control unit 132. ), an annotation format forming control unit 133, and a qualitative green tea learning data verification control unit 134.
[녹차 맛·품질 인식용 주석(Annotation) 제어부(131)][Annotation control unit (131) for green tea taste and quality recognition]
상기 녹차 맛·품질 인식용 주석(Annotation) 제어부(131)는 녹차 맛·품질 이미지 데이터에 대한 경계 박스 형태를 형성시킨 후, 주석을 생성시키도록 제어시키는 역할을 한다.The annotation control unit 131 for green tea taste and quality recognition forms a bounding box shape for the green tea taste and quality image data and then controls it to generate an annotation.
이는 파스칼(Pascal) VOC의 형태나 YOLO 형식으로 이루어진다.This is done in the form of Pascal VOC or YOLO format.
특히 많은 양의 데이터인 경우, 많은 노동력과 시간을 소모하며, 주석 과정에서 실수가 나올 수 있으므로, 올바르지 못한 데이터가 생성될 수 있다.Especially in the case of a large amount of data, it consumes a lot of labor and time, and mistakes may occur during the annotation process, resulting in incorrect data.
이에 본 발명에서는 녹차인식 네트워크를 통해 녹차 학습녹차 맛·품질 이미지데이터를 인식한 후, 자동으로 네트워크 형식에 맞는 주석 정보를 저장하도록 구성된다.Accordingly, the present invention is configured to recognize green tea taste and quality image data through a green tea recognition network and then automatically store annotation information appropriate for the network format.
[레티나넷(RetinaNet)형 녹차 맛·품질 인식제어부(132)][RetinaNet type green tea taste and quality recognition control unit (132)]
상기 레티나넷(RetinaNet)형 녹차 맛·품질 인식 제어부(132)는 레티나넷(RetinaNet)을 통해 학습으로 나온 웨이트(weight) 파일을 대용량 처리 가능한 hdf5 포맷으로 전환시킨 후, 녹차 맛·품질을 인식시키도록 제어시키는 역할을 한다.The RetinaNet-type green tea taste and quality recognition control unit 132 converts the weight file learned through RetinaNet into hdf5 format that can handle large volumes, and then recognizes the green tea taste and quality. It plays a role in controlling the
이는 대용량 복합 데이터를 저장하기 위한 도구로 개발된 hdf5 포맷이다.This is the hdf5 format developed as a tool for storing large amounts of complex data.
이 포맷은 시스템 플랫폼을 독립적으로 사용하고자 할 때, 가능하며, 대용량 복합 데이터 처리가 가능하다.This format is possible when you want to use the system platform independently, and it is capable of processing large amounts of complex data.
이러한 hdf5 포맷을 피톤(Python)에서 h5py 모듈을 설치하면 다룰 수 있다.You can handle this hdf5 format by installing the h5py module in Python.
즉, 녹차 맛·품질 이미지 데이터 셋을 hdf5 포맷을 통해 구성된다.In other words, the green tea taste and quality image data set is constructed through hdf5 format.
대용량 복합 데이터 처리가 가능한 이 형식을 이용하여, 피톤(Python)은 케라스(Keras)기반의 레티나 넷(RetinaNet)을 모듈로서 제공한다.Using this format, which is capable of processing large amounts of complex data, Python provides Keras-based RetinaNet as a module.
그리고, 레티나 넷을 통해 학습으로 나온 웨이트(weight) 파일을 대용량 처리 가능한 hdf5 포맷으로 전환하는 변환(Convert)모듈이 구성된다.Additionally, a Convert module is constructed that converts the weight file learned through Retina Net into hdf5 format that can handle large amounts of data.
또한, 레티나 넷으로 원하는 데이터를 학습하여 주어진 변환 모듈에 웨이트(weight) 파일을 입력하면, hdf5 파일 포맷으로 변환이 된다.Additionally, if you learn the desired data with Retina Net and input the weight file into the given conversion module, it will be converted to hdf5 file format.
그리고, 이를 텐서플로(Tensorflow) 기반의 로드 모델(load_mode1()) 함수를 통해서 학습 결과를 읽어오며, 읽어오는 기능의 함수를 티킨터(Tkinter) 프로그램에 포함하면 결과적으로 레이블링 툴에 녹차인식 네트워크 연동이 된다.Then, the learning results are read through the Tensorflow-based load model (load_mode1()) function, and if the reading function is included in the Tkinter program, the green tea recognition network is linked to the labeling tool. This happens.
상기 레티나넷(RetinaNet)은 레스넷(ResNet)을 기반 네트워크(Backbone Network)로 활용하면서, 두가지의 태스크 스페셔픽 서브 네트워크(Task-specific Sub Network)를 구성하는데, 이를 원 스테이지(One-stage)구조로 구성한다.The RetinaNet uses ResNet as a backbone network and configures two task-specific subnetworks, which have a one-stage structure. It consists of
여기서, 상기 레스넷(ResNet)은 처음 입력되는 녹차 맛·품질 이미지의 전체에 대한 특징(Feature)을 알고자 하며, 구조로는 FPN을 사용하여, 멀티 스케일 컨볼루셔널 특징 피라미드(Multi-scale Convolutional Feature Pyramid)를 생성한다.Here, the ResNet seeks to know the overall features of the first input green tea taste and quality image, and uses FPN as the structure, using a multi-scale convolutional feature pyramid. Create a Feature Pyramid.
참고로, FPN은 다양한 크기의 녹차 맛·품질 이미지를 탐지할 때, 효율적인 녹차 맛·품질 이미지 크기의 계산을 리사이즈(Resize) 하면서 물체를 찾도록 구성된 것으로, 탑-다운(Top-down) 방식으로 특징을 추출한다.For reference, when detecting green tea taste/quality images of various sizes, FPN is configured to find objects while resizing the efficient calculation of green tea taste/quality image size, using a top-down method. Extract features.
여기서, 탑-다운(Top-down) 방식의 특징추출은 각 레벨에서의 특징 맵을 통해서 특징을 추출하지만, 상위 레벨에서의 계산된 특징을 재사용함으로써, 하위 레벨에서의 특징 추출은 멀티 스케일 특징들을 효율적으로 추출할 수 있게끔 한다.Here, top-down feature extraction extracts features through the feature map at each level, but by reusing the features calculated at the higher level, feature extraction at the lower level extracts multi-scale features. Enables efficient extraction.
이로 인해, 객체에 대한 탐지 시간도 단축될 수 있다.Because of this, the detection time for an object can also be shortened.
상기 레티나넷(RetinaNet)의 구조를 살펴보면, 앵커 박스의 클래스를 분류하는 역할과, 다른 하나는 앵커 박스와 그라운드 트루쓰 오브젝브 박스(Ground-truth objet boxes)간의 거리를 예측하는 역할을 한다.Looking at the structure of RetinaNet, one role is to classify the class of the anchor box, and the other role is to predict the distance between the anchor box and ground-truth object boxes.
수학식 1에서 y항은 1 또는 -1의 값이며, 그라운드 쓰루 클래스(Ground truth class)를 가리키며, p항은 'y=1'인 클래스에 대해서 모델이 예측한 클래스 확률을 의미하므로 0 또는 1의 값을 갖는다.In Equation 1, the y term is a value of 1 or -1 and indicates the ground truth class, and the p term means the class probability predicted by the model for the class with 'y=1', so it is 0 or 1. It has the value of
그리고, 이를 수학식 2와 같이 항을 정리하면, 도 7에 도시한 그래프 중 가장 위 그래프에 해당된다. 그래서 로스(Loss)가 커지게 되면 낮은(드문) 클래스들의 로스(Loss)를 압도해 버리는 상황이 발생하여 문제가 될 수 있다.And, if the terms are organized as in Equation 2, it corresponds to the top graph among the graphs shown in FIG. 7. So, if the loss becomes large, it can become a problem as it overwhelms the losses of low (rare) classes.
클래스 불균형을 해결하는 가장 일반적인 방법은 0에서 1 사이의 가중치 알파(α)를 사용한다.The most common way to address class imbalance is to use a weight alpha (α) ranging from 0 to 1.
클래스 1에는 알파(α), 클래스 -1에는 (1-α)를 적용한다.Alpha (α) is applied to class 1 and (1-α) to class -1.
수학식 3에서 클래스 t에 대한 알파(t)를 다음과 같이 α 밸런스 CE 로스 식으로 정의한다.In Equation 3, alpha (t) for class t is defined by the α balance CE loss equation as follows.
하지만, 클래스 덴스 디텍터(Class Dense Detector)의 학습과정에서 불균형 문제가 심각해지는 경우, CE Loss의 압도 현상이 발생한다.However, if the imbalance problem becomes serious during the learning process of the class dense detector, the CE Loss overwhelming phenomenon occurs.
이렇게 되면 그래디언트(Gradient)에 막대한 영향을 주게된다.This will have a huge impact on the gradient.
수학식 3에서, 알파(α)는 포지티브(Positive) 및 네거티브(Negative) 샘플의 중요도를 균형이 맞도록 조절하는 밸런스 항의 역할을 한다.In Equation 3, alpha (α) serves as a balance term that adjusts the importance of positive and negative samples to be balanced.
이때, 수학식 4와 같이, 알파의 항 즉, 크로스 엔트로피 로스에 밸런스 항을 (1-pt)γ을 추가했다.At this time, as shown in Equation 4, the balance term (1-pt)γ was added to the alpha term, that is, the cross entropy loss.
Pt가 작은 값인 경우, 밸런스 항이 1에 가까워지면서 항의 값이 거의 0이 되므로, 결국, 로스 펀션(Loss Function)에 영향을 주지 않는다.When Pt is a small value, as the balance term approaches 1, the value of the term becomes almost 0, so ultimately, it does not affect the loss function.
[주석(Annotaion) 형식 포밍제어부(133)][Annotation format forming control unit (133)]
상기 주석(Annotaion) 형식 포밍 제어부(133)는 COCO 데이터셋으로 학습한 레티나넷을 티킨터(Tkinter) GUI 프로그램과 연동하여 녹차를 인식한 뒤, 경계 박스의 형태로 형성시킨 후 주석형식을 포밍시켜 정성적 녹차학습데이터셋을 생성제어시키는 역할을 한다.The annotation format forming control unit 133 recognizes green tea by linking the RetinaNet learned from the COCO dataset with the Tkinter GUI program, forms it in the form of a bounding box, and forms the annotation format. It plays a role in generating and controlling the qualitative green tea learning data set.
당연히 주석 과정을 수행하기 위해서는 인식한 객체에 좌표 정보를 저장해야 한다.Naturally, in order to perform the annotation process, coordinate information must be stored in the recognized object.
좌표정보에는 파스칼(Pascal) VOC 형태의 절대 좌표와 국산 차량 분류기를 생성하기 위해 학습할 YOLO 방식의 좌표가 계산되어야 한다.In the coordinate information, absolute coordinates in the form of Pascal VOC and coordinates in the YOLO method to be learned to create a domestic vehicle classifier must be calculated.
우선, 레티나 넷으로 인식한 좌표를 정의하기 위해, 케라스 함수의 'predict_on_batch()'함수를 통해 인식한 경계상자, 신뢰 점수, 라벨(Label) 등의 예측값을 피톤(Python)의 'zip()' 함수를 통해 하나의 시쿼느(Sequence) 형태로 묶어준 뒤, 리스트 형태로 담아서 좌표 정보를 얻어올 수 있도록 한다.First, in order to define the coordinates recognized by Retina Net, predicted values such as bounding box, confidence score, and label recognized through the 'predict_on_batch()' function of the Keras function are stored in Python's 'zip( )' function to group them into a single sequence and then put them in a list so that coordinate information can be obtained.
여기서, YOLO 모델의 좌표 방식은 비율을 나타내므로, 소수점에 해당되므로, 경계상자의 좌표를 플로트(float)의 형태로 정의한다.Here, the coordinate method of the YOLO model represents a ratio and corresponds to a decimal point, so the coordinates of the bounding box are defined in the form of a float.
경계박스를 구성하는 x1,y1,x2,y2 순서로 정의를 내린 후, 각각 미리 정의한 리스트에 담아서 좌표 정보를 저장한다.After defining the bounding box in the order of x1, y1, x2, and y2, coordinate information is stored in each predefined list.
파스칼 VOC 형식의 절대값 좌표 형식이므로, 정의내린 플로트(float) 형태를 마지막에 정수 형태로 변환만 하면 된다.Since it is an absolute value coordinate format in Pascal VOC format, all you have to do is convert the defined float form to an integer form at the end.
YOLO 모델의 적합한 주석 정보는 x,y 라는 경계 상자의 중점 좌표와 w,h 라는 중점 좌표로부터 너비 및 높이의 비율로 정의를 내리므로, 형식에 맞게 변환 수식을 적용하도록 구성된다.Appropriate annotation information for the YOLO model is defined as the ratio of the width and height from the midpoint coordinates of the bounding box x,y and the midpoint coordinates w,h, so it is configured to apply a conversion formula according to the format.
그리고, 이를 튜플의 형태로 반환하여, YOLO 형식에 맞는 주석 정보를 저장하도록 구성된다.Then, it is returned in the form of a tuple and is configured to store annotation information suitable for the YOLO format.
또한, 주석 정보를 추가로 저장하는데, 레티나넷(RetinaNet)의 형식에 맞는 주석정보를 저장하도록 구성된다.In addition, annotation information is additionally stored, and is configured to store annotation information in accordance with the format of RetinaNet.
레티나넷(RetinaNet)의 주석정보는 절대 좌표값으로 저장하지만, .CSV 하나의 파일안에 모든 데이터 셋의 주석 정보가 포함되며, 데이터가 위치한 파일 경로를 추가로 주석 정보에 입력한다.RetinaNet's annotation information is stored as absolute coordinates, but annotation information for all data sets is included in one .CSV file, and the file path where the data is located is additionally entered into the annotation information.
본 발명에 따른 GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부(110)는 정량적 녹차학습데이터를 생성시, 파스칼(Pascal) VOC 형식과, YOLO 형식 그리고, 레티나넷(RetinaNet) 모델 형식으로 객체에 대한 주석 정보를 세가지의 방식으로 저장하여 사용자에게 다양한 네트워크 훈련의 다양성을 제공한다.When generating quantitative green tea learning data, the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit 110 according to the present invention provides objects in Pascal VOC format, YOLO format, and RetinaNet model format. Annotation information is stored in three ways to provide users with a variety of network training possibilities.
[정성적 녹차학습데이터 검증제어부(134)][Qualitative green tea learning data verification control unit (134)]
상기 정성적 녹차학습데이터 검증제어부(134)는 주석(Annotaion) 형식 포밍 제어부를 통해 정성적 녹차학습데이터셋을 생성시킨 정성적 녹차학습데이터를 검증제어하는 역할을 한다.The qualitative green tea learning data verification control unit 134 serves to verify and control the qualitative green tea learning data generated by the annotation format forming control unit.
이는 학습을 할 때, 학습이 얼마나 잘 돼는지를 평가하는 것으로, 검증 데이터셋(Development Dataset)으로 구성된다.This evaluates how well learning is done when learning, and consists of a verification dataset (Development Dataset).
검증 데이터셋(Development Dataset)은 학습시, 학습된 모델의 성능평가에 사용되며, 그 결과가 파라미터에 반영된다.The development dataset is used to evaluate the performance of the learned model during training, and the results are reflected in the parameters.
검증 데이터셋(Development Dataset)의 목적은 학습 데이터에 의해 학습된 파라미터 중, 실제 데이터에도 잘 맞을 수 있도록 최적의 파라미터를 찾아낼 수 있도록 파라미터를 튜닝하는 것을 말한다.The purpose of the development dataset is to tune the parameters among the parameters learned from the training data so that the optimal parameters can be found to fit well with the actual data.
본 발명에서는 도 8에 도시한 바와 같이, 정성적 녹차학습데이터셋과 검증 데이터셋이 중첩되지 않도록 구성되고, 7:3 또는 8:2의 비율로 구성된다.In the present invention, as shown in Figure 8, the qualitative green tea learning data set and the verification data set are configured so as not to overlap, and are configured at a ratio of 7:3 or 8:2.
다음으로, 본 발명에 따른 정량적 녹차학습데이터셋 생성모듈(200)에 관해 설명한다.Next, the quantitative green tea learning data set generation module 200 according to the present invention will be described.
상기 정량적 녹차학습데이터셋 생성모듈(200)은 시기별 차잎데이터, 차 품질 전문가용 데이터, 소비자 기호 스펙트럼데이터, 차 생산지데이터를 기반으로 정량적 녹차학습데이터셋을 생성시키는 역할을 한다.The quantitative green tea learning data set generation module 200 serves to generate a quantitative green tea learning data set based on tea leaf data by period, data for tea quality experts, consumer preference spectrum data, and tea production area data.
여기서, 정량적이라는 것은 양적자료로서, 관측된 값이 수치형태의 속성을 가지는 것을 말한다.Here, quantitative refers to quantitative data, where observed values have numerical properties.
이는 도 9에 도시한 바와 같이, YOLO(You Look Only Once) 객체인식 모듈(210), R-CNN(Regions with CNN features) 알고리즘모듈(220), 정량적 녹차학습데이터셋 생성제어부(230)로 구성된다.As shown in FIG. 9, it consists of a YOLO (You Look Only Once) object recognition module 210, an R-CNN (Regions with CNN features) algorithm module 220, and a quantitative green tea learning dataset generation control unit 230. do.
첫째, 본 발명에 따른 YOLO(You Look Only Once) 객체인식 모듈(210)에 관해 설명한다.First, the YOLO (You Look Only Once) object recognition module 210 according to the present invention will be described.
상기 YOLO(You Look Only Once) 객체인식 모듈(210)은 시기별 차잎데이터, 차 품질 전문가용 데이터, 소비자 기호 스펙트럼데이터, 차 생산지데이터에서 녹차 맛·품질 이미지 내에 존재하는 녹차 맛·품질요소 객체와, 해당 녹차 맛·품질요소 객체의 위치를 학습하여, 녹차 맛·품질요소 객체를 인식시키는 역할을 한다.The YOLO (You Look Only Once) object recognition module 210 recognizes green tea taste and quality element objects present in the green tea taste and quality image from tea leaf data by period, data for tea quality experts, consumer preference spectrum data, and tea production area data. , It plays a role in recognizing the green tea taste/quality element object by learning the location of the corresponding green tea taste/quality element object.
이는 시기별 차잎데이터, 차 품질 전문가용 데이터, 소비자 기호 스펙트럼데이터, 차 생산지데이터에서 추출한 녹차 맛·품질 이미지넷(Imagenet)과, COCO데이터 셋을 합친 9000개 이상의 클래스를 학습시키도록 구성된다.It is configured to learn more than 9,000 classes that combine green tea taste and quality Imagenet and COCO data sets extracted from tea leaf data by period, data for tea quality experts, consumer preference spectrum data, and tea production area data.
상기 YOLO(You Look Only Once) 객체인식 모듈은 하나의 파이프라인 네트워크 구조로 구성된다.The YOLO (You Look Only Once) object recognition module consists of a single pipeline network structure.
그리고, 빠른 처리과정을 위해 원본 녹차 맛·품질 이미지를 동일한 크기의 격자(Grid) 형태로 S×S개로 나눈다.And, for quick processing, the original green tea taste and quality image is divided into S × S pieces in the form of a grid of the same size.
각 그리드 안쪽에 녹차 맛·품질요소 객체가 있을 것 같다고 확신(Confidence Score)할 수록 경계박스를 생성시킨다.The more confident (Confidence Score) there is a green tea taste/quality element object inside each grid, the more bounding boxes are created.
경계박스 안으로 포함되지 않은 그리드는 그리드의 중점을 통해 녹차 맛·품질요소 객체가 없다고 판단하여 삭제한다.Grids that are not included in the bounding box are deleted by determining that there are no green tea taste/quality element objects through the midpoint of the grid.
또한, 각 그리드 셀은 해당 영역에서 제안한 경계 박스(Proposal Bounding Box) 안의 객체가 어떤 클래스에 속하는지를 컬러로 표현되도록 구성된다.Additionally, each grid cell is configured to display in color which class the object within the Proposal Bounding Box in the area belongs to.
상기 YOLO(You Look Only Once) 객체인식 모듈은 미리 정의된 형태(Predefined Shape)로 지정된 경계 박스의 개수를 예측하고 이를 기반으로 신뢰도(Confidence Score)를 연산하도록 구성된다.The YOLO (You Look Only Once) object recognition module is configured to predict the number of bounding boxes designated as a predefined shape and calculate a confidence score based on this.
여기서, 지정된 경계박스는 앵커 박스와 같은 것으로, YOLO 모델에 학습 문제에 있어서 중요한 영향을 미치며, 높은 정확도에 기여한다.Here, the designated bounding box is like an anchor box, and has an important influence on the YOLO model in the learning problem and contributes to high accuracy.
둘째, 본 발명에 따른 R-CNN(Regions with CNN features) 알고리즘모듈(220)에 관해 설명한다.Second, the R-CNN (Regions with CNN features) algorithm module 220 according to the present invention will be described.
상기 R-CNN(Regions with CNN features) 알고리즘모듈(220)은 YOLO(You Look Only Once) 객체인식 모듈을 통해 인식 녹차 객체 중 녹차 객체가 있을 것으로 추정되는 지역(region)들을 도출해내고, 각 지역에서 CNN특성을 도출해낸 후, 각 지역이 녹차 맛·품질에 관한 클래스를 분류시키는 역할을 한다.The R-CNN (Regions with CNN features) algorithm module 220 derives regions in which green tea objects are estimated to be present among recognized green tea objects through the YOLO (You Look Only Once) object recognition module, and in each region After deriving CNN characteristics, each region plays a role in classifying classes related to green tea taste and quality.
이는 도10에 도시한 바와 같이, 실렉티브 서치(Selective Search)부(221), 컨볼루션 신경망부(222)로 구성된다.As shown in Figure 10, it is composed of a selective search unit 221 and a convolutional neural network unit 222.
상기 실렉티브 서치(Selective Search)부(221)는 시기별 차잎데이터, 차 품질 전문가용 데이터, 소비자 기호 스펙트럼데이터, 차 생산지데이터에서 대상을 구분하지 않고, 녹차 맛·품질 이미지로부터 비슷한 질감, 색, 강도를 가진 인접한 픽셀들을 연결하는 실렉티브 서치(Selective Search) 방식으로 녹차 객체 중 녹차 맛·품질요소가 있을 법한 후보 영역들을 탐색하는 역할을 한다.The Selective Search unit 221 does not distinguish objects from tea leaf data by period, data for tea quality experts, consumer preference spectrum data, and tea production area data, but similar texture, color, and search results from green tea taste and quality images. Using a selective search method that connects adjacent pixels with intensity, it searches for candidate areas among green tea objects that are likely to contain green tea taste and quality elements.
상기 시기별 차잎데이터는 시기별 차잎에 관한 데이터를 말한다.The tea leaf data by period refers to data about tea leaves by period.
상기 차 품질 전문가용 데이터는 시기별 차잎과 종류에 따라 차 품질 전문가가 평가한 데이터를 말한다.The above data for tea quality experts refers to data evaluated by tea quality experts according to tea leaves and types by period.
여기서, 차는 녹차, 홍차를 모두 포함한다.Here, tea includes both green tea and black tea.
상기 소비자 기호 스펙트럼데이터는 차 품질 전문가에 의해 판명된 품질(하, 중, 상) 별 소비자감별단들이 직접 맛을 보고 평가한 다양한 기호 스펙트럼에 관한 데이터를 말한다.The consumer preference spectrum data refers to data on various preference spectra that have been directly tasted and evaluated by consumer discriminators for each quality (low, medium, high) determined by a tea quality expert.
상기 차 생산지데이터는 차 생산지에 관한 데이터를 말한다.The tea production area data refers to data about the tea production area.
이는 차 생산지(일조량별, 온도편차 등) 별 녹차 품질 (상,중,하) 구분데이터, 홍차 품질 (상,중,하) 구분데이터가 포함되어 구성된다.This consists of green tea quality (high, middle, low) classification data and black tea quality (high, middle, low) classification data by tea production area (by amount of sunlight, temperature deviation, etc.).
상기 녹차와 홍차는 생산과정 중에는 생산지, 기후, 일교차, 건기와 우기 등 강수량, 미세먼지의 빈도 등이 영향을 미친다. 생산된 차는 일년 중 몇 번째 차잎(예: 첫 번째 어린 차잎이 통상 맛이 좋다 등)인지 여부(첫잎은 1, 두 번째 채취되는 차 잎은 2, 세 번째는 3과 같이 조작적으로 정의하여 속성값을 부여함), 녹차 수획기(4구분하는 경우와 절기로 세분화하는 경우 등이 있음) 마지막으로 차의 잎색깔(연녹색과 자주색의 범위와 밀도), 잎의 크기, 잎의 넓이, 잎의 형태, 솜털의 수준 등과 같은 형태를 수집 대상으로 한다. During the production process of green tea and black tea, the production location, climate, daily temperature range, precipitation such as dry and rainy seasons, and frequency of fine dust are affected. The attribute is defined operationally as 1 for the first leaf of the year, 2 for the second tea leaf, and 3 for the third tea leaf in the year (e.g., the first young tea leaf usually tastes better). value is given), green tea harvesting period (there are cases where it is divided into 4 and subdivided into seasons, etc.), and finally, tea leaf color (range and density of light green and purple), leaf size, leaf width, and leaf size. The object of collection is the shape, level of fluff, etc.
마지막으로 홍차와 녹차를 소비하는 단계에서 우려내는 과정에서는 차잎의 수, 향, 색, 맛의 수준 등이 있다. Lastly, the number of tea leaves, aroma, color, and level of taste are affected during the brewing process at the stage of consuming black and green tea.
즉 생산과정, 생산된 차의 감별, 소비과정에서의 체험이라는 차의 라이프사이클에서 공통으로 활용할 수 있는 데이터를 다양성있게 수집하고 그 중 차의 품질을 생산 단계에서 결정할 수 있는 주요 필드값(차 잎 색깔, 차 수확 시기, 생산지, 차 잎의 형태와 넓이 그리고 솜털의 수준)을 바탕으로 전문가의 품질 평가인 하, 중, 상을 정답 셋으로 레이블링을 구성한다.In other words, we collect a variety of data that can be commonly used in the life cycle of tea, such as the production process, identification of produced tea, and experience during the consumption process, and among them, key field values (tea leaves) that can determine the quality of tea at the production stage. Based on the color, tea harvest time, production area, shape and width of tea leaves, and level of fluff), labeling is composed of three correct answers: low, medium, and high, which is the expert's quality evaluation.
추가적으로 소비자 감별단을 모집(다양성 확보)하여 일반 소비자가 느끼는 차에 대한 맛의 평가한 데이터가 포함되어 구성된다.In addition, a consumer evaluation group is recruited (to ensure diversity), and data is included to evaluate the taste of tea as perceived by general consumers.
상기 컨볼루션 신경망부(222)는 각각의 영역으로 나뉜 객체를 컨볼루션 신경망을 통해 녹차 맛·품질에 관한 클래스를 분류시키는 역할을 한다.The convolutional neural network unit 222 serves to classify objects divided into each region into classes related to green tea taste and quality through a convolutional neural network.
이는 풀링 연산을 수행한다. 이러한 컨볼루션 신경망과 풀링연산을 통해 입력되는 녹차 맛·품질 이미지의 특징들을 추출하게 된다.This performs a pooling operation. Through this convolutional neural network and pooling operation, the features of the input green tea taste and quality image are extracted.
[정량적 녹차학습데이터셋 생성제어부(230)][Quantitative green tea learning data set generation control unit (230)]
상기 정량적 녹차학습데이터셋 생성제어부(230)는 R-CNN(Regions with CNN features) 알고리즘모듈을 통해 분류시킨 녹차 맛·품질에 관한 클래스를 검증한 후, 정량적 녹차학습데이터셋을 생성시키도록 제어시키는 역할을 한다.The quantitative green tea learning data set generation control unit 230 verifies the classes related to green tea taste and quality classified through the R-CNN (Regions with CNN features) algorithm module and then controls it to generate a quantitative green tea learning data set. It plays a role.
이는 정량적 녹차학습데이터 검증제어부(231)가 포함되어 구성된다.It is comprised of a quantitative green tea learning data verification control unit 231.
상기 정량적 녹차학습데이터 검증제어부(231)는 정량적 녹차학습데이터를 검증제어하는 역할을 한다.The quantitative green tea learning data verification control unit 231 serves to verify and control the quantitative green tea learning data.
이는 학습을 할 때, 학습이 얼마나 잘 돼는지를 평가하는 것으로, 검증 데이터셋(Development Dataset)으로 구성된다.This evaluates how well learning is done when learning, and consists of a verification dataset (Development Dataset).
검증 데이터셋(Development Dataset)은 학습시, 학습된 모델의 성능평가에 사용되며, 그 결과가 파라미터에 반영된다.The development dataset is used to evaluate the performance of the learned model during training, and the results are reflected in the parameters.
검증 데이터셋(Development Dataset)의 목적은 학습 데이터에 의해 학습된 파라미터 중, 실제 데이터에도 잘 맞을 수 있도록 최적의 파라미터를 찾아낼 수 있도록 파라미터를 튜닝하는 것을 말한다.The purpose of the development dataset is to tune the parameters among the parameters learned from the training data so that the optimal parameters can be found to fit well with the actual data.
본 발명에서는 도 11에 도시한 바와 같이, 정량적 녹차학습데이터셋과 검증 데이터셋이 중첩되지 않도록 구성되고, 7:3 또는 8:2의 비율로 구성된다.In the present invention, as shown in FIG. 11, the quantitative green tea learning data set and the verification data set are configured so as not to overlap, and are configured at a ratio of 7:3 or 8:2.
이를 통해, 차의 수확시점, 지역, 녹차와 홍차별 품질 기준(예:보라색을 뛰는 정도인 진한 녹색은 녹차의 하 품질이나 반면 홍차는 상품질이라는 상반된 기준), 차의 색깔, 차의 솜털 여부, 차의 무게(참조), 차 잎 색깔의 연녹색의 정도와 분포, 차 생산지의 온도 편차와 일조량 등을 기준으로 차를 수집하고 수집된 차를 전문가를 통해 상, 중, 하로 분류한 정량적학습데이터셋을 형성시킬 수 있다.Through this, the harvest time of tea, region, quality standards for green tea and black tea (e.g., dark green with a hint of purple is a low quality for green tea, whereas black tea is a commercial quality, which is a conflicting standard), color of tea, and whether or not the tea is fluffy. , Quantitative learning data that collected tea based on the weight of the tea (reference), degree and distribution of light green tea leaf color, temperature deviation and amount of sunlight in the tea production area, and classified the collected tea into high, medium, and low through experts. Three can be formed.
이하, 본 발명에 따른 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축방법에 관해 설명한다.Hereinafter, a method for constructing a hybrid green tea learning data set consisting of a quantitative green tea learning data set generation module and a qualitative green tea learning data set generation module according to the present invention will be described.
도 15는 본 발명에 따른 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축방법을 도시한 순서도에 관한 것이다.Figure 15 is a flow chart showing a hybrid green tea learning data set construction method consisting of a quantitative green tea learning data set generation module and a qualitative green tea learning data set generation module according to the present invention.
[정성적 녹차학습데이터셋을 생성시키는 단계(S10)][Step of generating a qualitative green tea learning dataset (S10)]
먼저, 정성적 녹차학습데이터셋 생성모듈을 통해, 녹차 학습데이터를 수집하고, 수집한 데이터를 레이블링작업을 함과 동시에, 데이터의 양을 증가시키고, 검증을 통해 정성적 녹차학습데이터셋을 생성시킨다.First, through the qualitative green tea learning data set creation module, green tea learning data is collected, the collected data is labeled, the amount of data is increased, and a qualitative green tea learning data set is created through verification. .
이는 도 16에 도시한 바와 같이, GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부를 통해, 녹차 학습데이터를 수집하고, 수집한 데이터를 레이블링작업을 함과 동시에, 학습데이터의 구성을 위한 전체적인 작업을 하나의 프로그램에서 구동시켜 녹차에 관한 학습데이터를 형성시킨다(S11).As shown in FIG. 16, green tea learning data is collected through the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit, labeling the collected data is performed, and the overall work for configuring the learning data is performed. is run in one program to form learning data about green tea (S11).
이어서, 어그멘테이션(Augmentation)부에서, GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부를 통해 형성시킨 녹차에 관한 학습데이터에다가 녹차 맛·품질 이미지 데이터의 양을 증가시킨다(S12).Next, in the augmentation unit, the amount of green tea taste and quality image data is increased in addition to the learning data about green tea generated through the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit (S12).
이어서, 정성적 녹차학습데이터셋 생성제어부에서, GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부를 통해 형성된 녹차에 관한 학습데이터와, 어그멘테이션(Augmentation)부를 통해 증가된 녹차 맛·품질 이미지 데이터를 검증한 후, 정성적 녹차학습데이터셋을 생성시킨다(S13).Next, in the qualitative green tea learning data set generation control unit, learning data about green tea formed through the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit, and green tea taste and quality image data increased through the augmentation unit. After verifying, a qualitative green tea learning dataset is created (S13).
이로 인해, 도 13에 도시한 바와 같이, 정성적 녹차학습데이터셋에는 녹차 맛·품질 이미지 데이터 중에서 녹차 채취시기에 따른 분류데이터, 녹차 발효정도에 따른 분류데이터가 포함되어 구성된다.For this reason, as shown in Figure 13, the qualitative green tea learning data set includes classification data according to the green tea collection time and classification data according to the degree of green tea fermentation among the green tea taste and quality image data.
[정량적 녹차학습데이터셋을 생성시키는 단계(S20)][Step of generating a quantitative green tea learning dataset (S20)]
다음으로, 정량적 녹차학습데이터셋 생성모듈을 통해, 시기별 차잎데이터, 차 품질 전문가용 데이터, 소비자 기호 스펙트럼데이터, 차 생산지데이터를 기반으로 정량적 녹차학습데이터셋을 생성시킨다.Next, through the quantitative green tea learning data set creation module, a quantitative green tea learning data set is created based on tea leaf data by period, data for tea quality experts, consumer preference spectrum data, and tea production area data.
이는 도 17에 도시한 바와 같이, YOLO(You Look Only Once) 객체인식 모듈을 통해, 시기별 차잎데이터, 차 품질 전문가용 데이터, 소비자 기호 스펙트럼데이터, 차 생산지데이터에서 녹차 맛·품질 이미지 내에 존재하는 녹차 맛·품질요소 객체와, 해당 녹차 맛·품질요소 객체의 위치를 학습하여, 녹차 맛·품질요소 객체를 인식시킨다(S21).As shown in Figure 17, through the YOLO (You Look Only Once) object recognition module, the tea leaf data by period, tea quality expert data, consumer preference spectrum data, and tea production area data are used to identify the green tea taste and quality image. The green tea taste/quality element object and the location of the corresponding green tea taste/quality element object are learned to recognize the green tea taste/quality element object (S21).
이어서, R-CNN(Regions with CNN features) 알고리즘모듈에서, YOLO(You Look Only Once) 객체인식 모듈을 통해 인식 녹차 객체 중 녹차 객체가 있을 것으로 추정되는 지역(region)들을 도출해내고, 각 지역에서 CNN특성을 도출해낸 후, 각 지역이 녹차 맛·품질에 관한 클래스를 분류시킨다(S22).Next, in the R-CNN (Regions with CNN features) algorithm module, regions where green tea objects are estimated to be present among the recognized green tea objects are derived through the YOLO (You Look Only Once) object recognition module, and CNNs are used in each region. After deriving the characteristics, each region is classified into classes regarding green tea taste and quality (S22).
이어서, 정량적 녹차학습데이터셋 생성제어부에서 R-CNN(Regions with CNN features) 알고리즘모듈을 통해 분류시킨 녹차 맛·품질에 관한 클래스를 검증한 후, 정량적 녹차학습데이터셋을 생성시킨다(S23).Next, the quantitative green tea learning data set generation control unit verifies the classes related to green tea taste and quality classified through the R-CNN (Regions with CNN features) algorithm module, and then generates a quantitative green tea learning data set (S23).
이로인해, 도 14에 도시한 바와 같이, 정량적 녹차학습데이터셋에는 녹차 품질등급 (상,중,하) 구분데이터, 녹차건조차잎 형태, 향미, 열수추출물, 맛에 관한 채점기준데이터가 포함되어 구성된다.As a result, as shown in Figure 14, the quantitative green tea learning data set includes green tea quality grade (high, middle, low) classification data, green tea dried leaf shape, flavor, hot water extract, and scoring criteria data for taste. do.
[응용단계(S30)][Application stage (S30)]
끝으로, 도 12에 도시한 바와 같이, 정성적 녹차학습데이터셋과 정량적 녹차학습데이터셋을 스마트앱, 인공지능 딥러닝과 연계된 녹차관련 홍보, 유통, 수출시스템구축에 응용시킨다.Finally, as shown in Figure 12, the qualitative green tea learning data set and quantitative green tea learning data set are applied to building green tea-related promotion, distribution, and export systems linked to smart apps and artificial intelligence deep learning.
1 : 하이브리드형 녹차학습데이터셋 구축장치
100 : 정성적 녹차학습데이터셋 생성모듈
110 : GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부
120 : 어그멘테이션(Augmentation)부
130 : 정성적 녹차학습데이터셋 생성제어부
200 : 정량적 녹차학습데이터셋 생성모듈
210 : YOLO(You Look Only Once) 객체인식 모듈
220 : R-CNN(Regions with CNN features) 알고리즘모듈
230 : 정량적 녹차학습데이터셋 생성제어부 1: Hybrid green tea learning data set construction device
100: Qualitative green tea learning data set creation module
110: GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit
120: Augmentation department
130: Qualitative green tea learning data set generation control unit
200: Quantitative green tea learning data set creation module
210: YOLO (You Look Only Once) object recognition module
220: R-CNN (Regions with CNN features) algorithm module
230: Quantitative green tea learning data set generation control unit
Claims (9)
시기별 차잎데이터, 차 품질 전문가용 데이터, 소비자 기호 스펙트럼데이터, 차 생산지데이터를 기반으로 정량적 녹차학습데이터셋을 생성시키는 정량적 녹차학습데이터셋 생성모듈(200)로 구성되는 것을 특징으로 하는 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치.
A qualitative green tea learning data set generation module 100 that collects green tea learning data, labels the collected data, increases the amount of data, and generates a qualitative green tea learning data set through verification;
Quantitative green tea learning, which consists of a quantitative green tea learning data set generation module 200 that generates a quantitative green tea learning data set based on tea leaf data by period, data for tea quality experts, consumer preference spectrum data, and tea production area data. A hybrid green tea learning dataset construction device consisting of a dataset creation module and a qualitative green tea learning dataset creation module.
녹차 학습데이터를 수집하고, 수집한 데이터를 레이블링작업을 함과 동시에, 학습데이터의 구성을 위한 전체적인 작업을 하나의 프로그램에서 구동시켜 녹차에 관한 학습데이터를 형성시키는 GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부(110)와,
GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부를 통해 형성시킨 녹차에 관한 학습데이터에다가 학습 효과를 높이기 위해서, 녹차 맛·품질 이미지 데이터의 양을 증가시키는 어그멘테이션(Augmentation)부(120)와,
GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부를 통해 형성된 녹차에 관한 학습데이터와, 어그멘테이션(Augmentation)부를 통해 증가된 녹차 맛·품질 이미지 데이터를 검증한 후, 정성적 녹차학습데이터셋을 생성시키도록 제어시키는 정성적 녹차학습데이터셋 생성제어부(130)로 구성되는 것을 특징으로 하는 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치.
The method of claim 1, wherein the qualitative green tea learning data set generation module (100)
A GTIAT (Green Tea Images Annotation Tool) type that collects green tea learning data, labels the collected data, and runs the overall task of constructing the learning data in one program to form learning data about green tea. A GUI program engine unit 110,
In order to increase the learning effect in addition to the learning data about green tea formed through the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit, an augmentation unit 120 that increases the amount of green tea taste and quality image data is provided. ,
After verifying the green tea learning data formed through the GTIAT (Green Tea Images Annotation Tool) type GUI program engine section and the increased green tea taste and quality image data through the augmentation section, a qualitative green tea learning data set was created. A hybrid green tea learning data set construction device consisting of a quantitative green tea learning data set generation module and a qualitative green tea learning data set generation module, characterized by consisting of a qualitative green tea learning data set generation control unit 130 that controls the generation.
다양한 작업에대해 데이터 흐름 프로그래밍을 위한 오픈소스 소프트웨어 라이브러리역할을 수행하는 텐서플로(Tensorflow)(111)와,
사전학습된 coco모델을 로드하고, 이를 이용하여 객체검출을 수행하는 케라스 레티나넷(Keras-RetinaNet) 모듈(112)과,
웹·앱페이지에서 사용자가 원하는 데이터를 수집하는 크롤링·스크랩핑 모듈(113)과,
웹·앱 브라우저(Web Browser)의 드라이버를 활용하여 웹·앱 브라우저상에서 데이터를 수집하는 셀레니움(Selenium) 모듈(114)로 구성되는 것을 특징으로 하는 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치.
The method of claim 2, wherein the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit 110
Tensorflow (111), which serves as an open source software library for data flow programming for various tasks,
A Keras-RetinaNet module 112 that loads a pre-trained coco model and performs object detection using it,
A crawling and scraping module 113 that collects data desired by users from web and app pages,
A quantitative green tea learning data set creation module and qualitative green tea learning data, which are comprised of a Selenium module 114 that collects data on a web/app browser using the driver of the web/app browser. A hybrid green tea learning data set construction device consisting of a set generation module.
녹차 맛·품질 이미지 데이터에 대한 경계 박스 형태를 형성시킨 후, 주석을 생성시키도록 제어시키는 녹차 맛·품질 인식용 주석(Annotation) 제어부(131)와,
레티나넷(RetinaNet)을 통해 학습으로 나온 웨이트(weight) 파일을 대용량 처리 가능한 hdf5 포맷으로 전환시킨 후, 녹차 맛·품질을 인식시키도록 제어시키는 레티나넷(RetinaNet)형 녹차 맛·품질 인식 제어부(132와,
COCO 데이터셋으로 학습한 레티나넷을 티킨터(Tkinter) GUI 프로그램과 연동하여 녹차를 인식한 뒤, 경계 박스의 형태로 형성시킨 후 주석형식을 포밍시켜 정성적 녹차학습데이터셋을 생성제어시키는 주석(Annotaion) 형식 포밍 제어부(133)와,
주석(Annotaion) 형식 포밍 제어부를 통해 정성적 녹차학습데이터셋을 생성시킨 정성적 녹차학습데이터를 검증제어하는 정성적 녹차학습데이터 검증제어부(134)로 구성되는 것을 특징으로 하는 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치.
The method of claim 2, wherein the qualitative green tea learning data set generation control unit 130
An annotation control unit 131 for green tea taste and quality recognition that forms a bounding box for green tea taste and quality image data and then controls it to generate an annotation;
A RetinaNet-type green tea taste and quality recognition control unit (132) that converts the weight file learned through RetinaNet into hdf5 format that can handle large volumes, and then controls it to recognize the taste and quality of green tea. and,
RetinaNet learned from the COCO dataset is linked with the Tkinter GUI program to recognize green tea, form a bounding box, and then form an annotation format to create and control a qualitative green tea learning dataset. Annotaion type forming control unit 133,
Generating a quantitative green tea learning data set, characterized in that it consists of a qualitative green tea learning data verification control unit 134 that verifies and controls the qualitative green tea learning data generated through the annotation format forming control unit. A hybrid green tea learning data set construction device consisting of a module and a qualitative green tea learning data set creation module.
시기별 차잎데이터, 차 품질 전문가용 데이터, 소비자 기호 스펙트럼데이터, 차 생산지데이터에서 녹차 맛·품질 이미지 내에 존재하는 녹차 맛·품질요소 객체와, 해당 녹차 맛·품질요소 객체의 위치를 학습하여, 녹차 맛·품질요소 객체를 인식시키는 YOLO(You Look Only Once) 객체인식 모듈(210)과,
YOLO(You Look Only Once) 객체인식 모듈을 통해 인식 녹차 객체 중 녹차 객체가 있을 것으로 추정되는 지역(region)들을 도출해내고, 각 지역에서 CNN특성을 도출해낸 후, 각 지역이 녹차 맛·품질에 관한 클래스를 분류시키는 R-CNN(Regions with CNN features) 알고리즘모듈(220)과,
R-CNN(Regions with CNN features) 알고리즘모듈을 통해 분류시킨 녹차 맛·품질에 관한 클래스를 검증한 후, 정량적 녹차학습데이터셋을 생성시키도록 제어시키는 정량적 녹차학습데이터셋 생성제어부(230)로 구성되는 것을 특징으로 하는 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치.
The method of claim 1, wherein the quantitative green tea learning data set generation module 200
Green tea taste and quality element objects that exist in the green tea taste and quality image and the location of the corresponding green tea taste and quality element object are learned from tea leaf data by period, data for tea quality experts, consumer preference spectrum data, and tea production area data, A YOLO (You Look Only Once) object recognition module 210 that recognizes taste and quality element objects,
Through the YOLO (You Look Only Once) object recognition module, regions that are estimated to contain green tea objects are derived from among the recognized green tea objects, CNN characteristics are derived from each region, and then each region has information on green tea taste and quality. An R-CNN (Regions with CNN features) algorithm module 220 that classifies classes,
It consists of a quantitative green tea learning data set generation control unit 230 that verifies the classes related to green tea taste and quality classified through the R-CNN (Regions with CNN features) algorithm module and then controls it to generate a quantitative green tea learning data set. A hybrid green tea learning data set construction device consisting of a quantitative green tea learning data set creation module and a qualitative green tea learning data set creation module.
시기별 차잎데이터, 차 품질 전문가용 데이터, 소비자 기호 스펙트럼데이터, 차 생산지데이터에서 대상을 구분하지 않고, 녹차 맛·품질 이미지로부터 비슷한 질감, 색, 강도를 가진 인접한 픽셀들을 연결하는 실렉티브 서치(Selective Search) 방식으로 녹차 객체 중 녹차 맛·품질요소가 있을 법한 후보 영역들을 탐색하는 실렉티브 서치(Selective Search)부(221)와,
각각의 영역으로 나뉜 객체를 컨볼루션 신경망을 통해 녹차 맛·품질에 관한 클래스를 분류시키는 컨볼루션 신경망부(222)로 구성되는 것을 특징으로 하는 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치.
The method of claim 5, wherein the R-CNN (Regions with CNN features) algorithm module 220
Selective search connects adjacent pixels with similar texture, color, and intensity from green tea taste and quality images without distinguishing subjects from tea leaf data by period, data for tea quality experts, consumer preference spectrum data, and tea production area data. A Selective Search unit 221 that searches for candidate areas among green tea objects that are likely to contain green tea taste and quality factors using a Search method;
A quantitative green tea learning data set generation module and a qualitative green tea learning data set, which are composed of a convolutional neural network unit 222 that classifies objects divided into each area into classes related to green tea taste and quality through a convolutional neural network. A hybrid green tea learning data set construction device consisting of a generation module.
정량적 녹차학습데이터셋 생성모듈을 통해, 시기별 차잎데이터, 차 품질 전문가용 데이터, 소비자 기호 스펙트럼데이터, 차 생산지데이터를 기반으로 정량적 녹차학습데이터셋을 생성시키는 단계(S20)와,
정성적 녹차학습데이터셋과 정량적 녹차학습데이터셋을 스마트앱, 인공지능 딥러닝과 연계된 녹차관련 홍보, 유통, 수출시스템구축에 응용시키는 단계(S30)로 이루어지는 것을 특징으로 하는 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축방법.
Through the qualitative green tea learning data set creation module, green tea learning data is collected, the collected data is labeled, the amount of data is increased, and a qualitative green tea learning data set is created through verification (steps) S10) and,
A step (S20) of generating a quantitative green tea learning data set based on tea leaf data by period, data for tea quality experts, consumer preference spectrum data, and tea production area data through the quantitative green tea learning data set generation module;
A quantitative green tea learning data set characterized by applying the qualitative green tea learning data set and the quantitative green tea learning data set to building a green tea-related promotion, distribution, and export system linked to smart apps and artificial intelligence deep learning (S30). A hybrid green tea learning dataset construction method consisting of a creation module and a qualitative green tea learning dataset creation module.
GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부를 통해, 녹차 학습데이터를 수집하고, 수집한 데이터를 레이블링작업을 함과 동시에, 학습데이터의 구성을 위한 전체적인 작업을 하나의 프로그램에서 구동시켜 녹차에 관한 학습데이터를 형성시키는 단계(S11)와,
어그멘테이션(Augmentation)부에서, GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부를 통해 형성시킨 녹차에 관한 학습데이터에다가 녹차 맛·품질 이미지 데이터의 양을 증가시키는 단계(S12)와,
정성적 녹차학습데이터셋 생성제어부에서, GTIAT(Green Tea Images Annotation Tool)형 GUI 프로그램 엔진부를 통해 형성된 녹차에 관한 학습데이터와, 어그멘테이션(Augmentation)부를 통해 증가된 녹차 맛·품질 이미지 데이터를 검증한 후, 정성적 녹차학습데이터셋을 생성시키는 단계(S13)로 이루어지는 것을 특징으로 하는 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축방법.
The method of claim 7, wherein the step (S10) of generating the qualitative green tea learning data set is
Through the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit, green tea learning data is collected, the collected data is labeled, and the overall work for configuring the learning data is run in one program to provide green tea. A step (S11) of forming learning data about
In the augmentation unit, a step (S12) of increasing the amount of green tea taste and quality image data in addition to the learning data about green tea generated through the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit;
In the qualitative green tea learning data set generation control unit, the learning data about green tea formed through the GTIAT (Green Tea Images Annotation Tool) type GUI program engine unit and the increased green tea taste and quality image data through the augmentation unit are verified. Then, a hybrid green tea learning data set construction method consisting of a quantitative green tea learning data set generation module and a qualitative green tea learning data set generation module, comprising the step of generating a qualitative green tea learning data set (S13).
YOLO(You Look Only Once) 객체인식 모듈을 통해, 시기별 차잎데이터, 차 품질 전문가용 데이터, 소비자 기호 스펙트럼데이터, 차 생산지데이터에서 녹차 맛·품질 이미지 내에 존재하는 녹차 맛·품질요소 객체와, 해당 녹차 맛·품질요소 객체의 위치를 학습하여, 녹차 맛·품질요소 객체를 인식시키는 단계(S21)와,
R-CNN(Regions with CNN features) 알고리즘모듈에서, YOLO(You Look Only Once) 객체인식 모듈을 통해 인식 녹차 객체 중 녹차 객체가 있을 것으로 추정되는 지역(region)들을 도출해내고, 각 지역에서 CNN특성을 도출해낸 후, 각 지역이 녹차 맛·품질에 관한 클래스를 분류시키는 단계(S22)와,
정량적 녹차학습데이터셋 생성제어부에서 R-CNN(Regions with CNN features) 알고리즘모듈을 통해 분류시킨 녹차 맛·품질에 관한 클래스를 검증한 후, 정량적 녹차학습데이터셋을 생성시키는 단계(S23)로 이루어지는 것을 특징으로 하는 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축방법.The method of claim 7, wherein the step (S20) of generating the quantitative green tea learning data set is
Through the YOLO (You Look Only Once) object recognition module, green tea taste and quality element objects that exist in the green tea taste and quality image are identified from tea leaf data by period, tea quality expert data, consumer preference spectrum data, and tea production area data, and the corresponding A step (S21) of learning the location of the green tea taste/quality element object and recognizing the green tea taste/quality element object,
In the R-CNN (Regions with CNN features) algorithm module, regions where green tea objects are estimated to be present among recognized green tea objects are derived through the YOLO (You Look Only Once) object recognition module, and CNN characteristics are derived from each region. After deriving, each region is classified into classes regarding green tea taste and quality (S22),
The quantitative green tea learning data set generation control unit verifies the classes related to green tea taste and quality classified through the R-CNN (Regions with CNN features) algorithm module, and then generates a quantitative green tea learning data set (S23). A hybrid green tea learning dataset construction method consisting of a quantitative green tea learning dataset creation module and a qualitative green tea learning dataset creation module.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220111102A KR20240032288A (en) | 2022-09-02 | 2022-09-02 | Apparatus and method for constructing a hybrid green tea learning dataset consisting of a quantitative green tea learning dataset generation module and a qualitative green tea learning dataset generation module |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220111102A KR20240032288A (en) | 2022-09-02 | 2022-09-02 | Apparatus and method for constructing a hybrid green tea learning dataset consisting of a quantitative green tea learning dataset generation module and a qualitative green tea learning dataset generation module |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240032288A true KR20240032288A (en) | 2024-03-12 |
Family
ID=90299789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220111102A KR20240032288A (en) | 2022-09-02 | 2022-09-02 | Apparatus and method for constructing a hybrid green tea learning dataset consisting of a quantitative green tea learning dataset generation module and a qualitative green tea learning dataset generation module |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20240032288A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118285445A (en) * | 2024-06-05 | 2024-07-05 | 四川省农业科学院蚕业研究所(四川省农业科学院特种经济动植物研究所) | Intelligent curing method and system for mulberry leaf tea production based on big data |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101949154B1 (en) | 2018-09-17 | 2019-02-18 | (주)투비소프트 | Electronic device for transforming structure of dataset using javascript object notation and operating method thereof |
KR102321735B1 (en) | 2020-11-27 | 2021-11-04 | 부산대학교 산학협력단 | Apparatus for ensuring fairness of ai learning datasets based on multidimensional subset association analysis and method for ensuring fairness of ai learning datasets thereof |
-
2022
- 2022-09-02 KR KR1020220111102A patent/KR20240032288A/en unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101949154B1 (en) | 2018-09-17 | 2019-02-18 | (주)투비소프트 | Electronic device for transforming structure of dataset using javascript object notation and operating method thereof |
KR102321735B1 (en) | 2020-11-27 | 2021-11-04 | 부산대학교 산학협력단 | Apparatus for ensuring fairness of ai learning datasets based on multidimensional subset association analysis and method for ensuring fairness of ai learning datasets thereof |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118285445A (en) * | 2024-06-05 | 2024-07-05 | 四川省农业科学院蚕业研究所(四川省农业科学院特种经济动植物研究所) | Intelligent curing method and system for mulberry leaf tea production based on big data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Machine learning in modelling land-use and land cover-change (LULCC): Current status, challenges and prospects | |
CN110929774B (en) | Classification method, model training method and device for target objects in image | |
Hussain et al. | Change detection from remotely sensed images: From pixel-based to object-based approaches | |
García et al. | A Distributed K‐Means Segmentation Algorithm Applied to Lobesia botrana Recognition | |
CN109523520A (en) | A kind of chromosome automatic counting method based on deep learning | |
Younis et al. | Detection and annotation of plant organs from digitised herbarium scans using deep learning | |
CN105719285A (en) | Pedestrian detection method based on directional chamfering distance characteristics | |
US11790410B2 (en) | System and method for natural capital measurement | |
Kazi | Fruit grading, disease detection, and an image processing strategy | |
Durduran | Automatic classification of high resolution land cover using a new data weighting procedure: The combination of k-means clustering algorithm and central tendency measures (KMC–CTM) | |
Treboux et al. | Decision tree ensemble vs. nn deep learning: efficiency comparison for a small image dataset | |
Malik et al. | Computer vision models for comparing spatial patterns: understanding spatial scale | |
Silva et al. | Superpixel-based online wagging one-class ensemble for feature selection in foreground/background separation | |
A. Rashid et al. | Association rule mining using time series data for Malaysia climate variability prediction | |
KR20240032288A (en) | Apparatus and method for constructing a hybrid green tea learning dataset consisting of a quantitative green tea learning dataset generation module and a qualitative green tea learning dataset generation module | |
CN110675382A (en) | Aluminum electrolysis superheat degree identification method based on CNN-LapseLM | |
Chakraborty et al. | A reflection on image classifications for forest ecology management: towards landscape mapping and monitoring | |
CN112465821A (en) | Multi-scale pest image detection method based on boundary key point perception | |
CN112231535A (en) | Method for making multi-modal data set in field of agricultural diseases and insect pests, processing device and storage medium | |
Zhang et al. | Detection of coronal mass ejections using multiple features and space–time continuity | |
Hi et al. | A deep learning approach for lantana camara weed detection and localization in the natural environment | |
Leite et al. | PhenoVis–A tool for visual phenological analysis of digital camera images using chronological percentage maps | |
Ríos-Toledo et al. | Plant Stress Recognition Using Deep Learning and 3D Reconstruction | |
Raje | Detecting Diseases in Rice Leaf Using Deep Learning and Machine Learning Techniques | |
Chelali et al. | From pixels to random walk based segments for image time series deep classification |