KR20240012520A - 화상 분류 장치 및 방법 - Google Patents
화상 분류 장치 및 방법 Download PDFInfo
- Publication number
- KR20240012520A KR20240012520A KR1020237044265A KR20237044265A KR20240012520A KR 20240012520 A KR20240012520 A KR 20240012520A KR 1020237044265 A KR1020237044265 A KR 1020237044265A KR 20237044265 A KR20237044265 A KR 20237044265A KR 20240012520 A KR20240012520 A KR 20240012520A
- Authority
- KR
- South Korea
- Prior art keywords
- image
- feature
- image classification
- teacher information
- image group
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013507 mapping Methods 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 239000000284 extract Substances 0.000 claims abstract description 10
- 230000006866 deterioration Effects 0.000 claims 2
- 238000012545 processing Methods 0.000 description 22
- 238000013145 classification model Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 7
- 239000003638 chemical reducing agent Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
- G06V10/7788—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
화상 내의 중요한 특징량을 추출하여 매핑을 행할 수 있는 화상 분류 장치 및 그 방법을 제공한다. 화상군에 포함되는 화상 중 동일한 화상에 대하여 다른 노이즈를 부여하여 생성된 제1 화상군과 다른 화상에 의해 구성되는 제2 화상군을 생성하고, 제1 화상군으로부터 얻어지는 특징량이 근사하도록 학습하고, 제2 화상군으로부터 얻어지는 특징량은 보다 다르게 학습하고 특징량을 추출하는 특징량 추출부(101)와, 추출한 복수의 특징량을, 다양체 학습을 사용하여 2차원 또는 3차원으로 매핑하는 특징량 매핑부(102)와, 매핑 결과를 표시하고 교사 정보 부여 작업 화면을 구성하는 표시부(103)를 구비한다.
Description
본 발명은 화상 분류 장치 및 방법에 관한 것이고, 특히 학습 기능을 구비한 화상 분류 시스템에 있어서의 교사 데이터 작성 비용을 삭감하기 위한 기술에 관한 것이다.
학습 기능을 구비한 화상 분류 시스템은, 심층 학습 등의 화상 분류 모델을 사용하여 구성되는 경우가 있다. 심층 학습 등의 화상 분류 모델을 사용하는 경우, 교사 데이터로서 많은 입력 화상과 화상의 종별을 나타내는 교사 정보가 필요하여, 데이터수가 많은 경우 그 비용은 방대하다.
그 대책으로서, 화상이 갖는 특징량을 사람이 확인할 수 있는 형태로 매핑하여 교사 정보 작성 작업을 지원하고 있다. 예를 들어 특허문헌 1에서는, 화상군에 대하여 주성분 분석을 행하고, 가시화를 위해 2차원 또는 3차원으로 매핑하여 화상이 갖는 특징마다 분리되어 있는 특징량의 분포를 표시함으로써, 공정수를 삭감하는 대처가 행해져 왔다.
특허문헌 1에서는, 화상군에 대하여 주성분 분석을 행하여 특징량을 2차원 또는 3차원으로 매핑하지만, 주성분 분석은 데이터간의 변동이 가장 커지는 축을 2차원 또는 3차원으로서 결정하고 그 이외의 차원은 삭감하는 방법이므로, 화상 내의 큰 특징만을 파악하도록 매핑을 행하고, 화상 내의 작은 특징은 무시되어 버린다. 그 때문에, 화상 내의 작은 영역에 중요한 정보가 있는 경우는 적절한 것은 아니다. 또한, 화소값의 노이즈의 변동이 큰 화상군이면 노이즈를 축으로서 파악해 버려, 중요한 정보가 삭감되어 버리는 경우가 있다.
상기의 과제를 해결하기 위해, 본 발명에 있어서는, 화상 내의 작은 영역에 중요한 정보가 있는 경우나 노이즈가 많은 화상군이어도 중요한 특징량을 추출하여 매핑을 행할 수 있는 화상 분류 장치 및 방법을 제공하는 것을 목적으로 한다.
상기의 과제를 해결하기 위해, 본 발명에 있어서는, 화상 분류를 행하는 화상 분류 장치이며, 화상군에 포함되는 화상 중 동일한 화상에 대하여 다른 노이즈를 부여하여 생성된 제1 화상군과, 다른 화상에 의해 구성되는 제2 화상군을 생성하고, 상기 제1 화상군으로부터 얻어지는 특징량이 근사하도록 학습하고, 상기 제2 화상군으로부터 얻어지는 특징량은 보다 다르게 학습하고, 특징량을 추출하는 특징량 추출부와, 추출한 복수의 특징량을, 다양체 학습을 사용하여 2차원 또는 3차원으로 매핑하는 특징량 매핑부와, 매핑 결과를 표시하고, 교사 정보 부여 작업을 행하는 교사 정보 부여 작업 화면을 표시하는 표시부를 구비하는 구성의 화상 분류 장치를 제공한다.
또한 상기의 목적을 달성하기 위해, 본 발명에 있어서는, 화상 분류를 행하는 화상 분류 방법이며, 화상군에 포함되는 화상 중 동일한 화상에 대하여 다른 노이즈를 부여하여 생성된 제1 화상군과, 다른 화상에 의해 구성되는 제2 화상군을 생성하고, 상기 제1 화상군으로부터 얻어지는 특징량이 근사하도록 학습하고, 상기 제2 화상군으로부터 얻어지는 특징량은 보다 다르게 학습하고, 특징량을 추출하고, 추출한 복수의 특징량을, 다양체 학습을 사용하여 2차원 또는 3차원으로 매핑하고, 매핑 결과를 교사 정보 부여 작업 화면에 표시하는 화상 분류 방법을 제공한다.
본 발명에 따르면, 중요한 화상 내의 작은 영역을 중요한 특징량으로서 파악하는 것과 노이즈에 로버스트한 특징량 추출을 행할 수 있어, 2차원 또는 3차원으로 매핑하는 것이 가능해진다. 이에 의해, 적절한 교사 데이터 작성을 지원하고, 화상 분류 모델의 정밀도 향상에 필요한 공정수를 삭감할 수 있다.
도 1은 실시예 1에 관한 화상 분류 장치의 일례를 도시하는 도면.
도 2는 특징량 추출부의 처리 수순의 개요의 일례를 도시하는 도면.
도 3은 특징량 추출부를 실현하기 위한 화상 분류 모델의 학습 처리 수순예를 도시하는 도면.
도 4는 도 3의 처리 스텝 S303의 노이즈 부여의 종류의 예를 도시하는 도면.
도 5는 교사 정보 부여 작업 화면에서 영역을 선택하여 일괄적으로 교사 정보 부여하는 일례를 도시한 도면.
도 6은 교사 정보 부여 작업 화면에서 섬네일 화상을 표시하는 일례를 도시한 도면.
도 7은 교사 정보 부여 작업 화면에서 복수의 특징량이 밀집되어 다른 특징량과 잘 분리되어 있는 영역을 강조하여 표시하는 화면의 일례를 도시한 도면.
도 8은 교사 정보 부여 작업 화면에서 다른 특징량과 비교하여 고립되어 있는 특징량을 강조하여 표시하는 화면의 일례를 도시하는 도면.
도 9는 교사 정보 부여 작업 화면에서 재매핑을 행하는 영역을 지정하는 화면의 일례를 도시하는 도면.
도 10은 재매핑을 권장하는 영역의 결정 처리 수순의 일례를 도시하는 도면.
도 2는 특징량 추출부의 처리 수순의 개요의 일례를 도시하는 도면.
도 3은 특징량 추출부를 실현하기 위한 화상 분류 모델의 학습 처리 수순예를 도시하는 도면.
도 4는 도 3의 처리 스텝 S303의 노이즈 부여의 종류의 예를 도시하는 도면.
도 5는 교사 정보 부여 작업 화면에서 영역을 선택하여 일괄적으로 교사 정보 부여하는 일례를 도시한 도면.
도 6은 교사 정보 부여 작업 화면에서 섬네일 화상을 표시하는 일례를 도시한 도면.
도 7은 교사 정보 부여 작업 화면에서 복수의 특징량이 밀집되어 다른 특징량과 잘 분리되어 있는 영역을 강조하여 표시하는 화면의 일례를 도시한 도면.
도 8은 교사 정보 부여 작업 화면에서 다른 특징량과 비교하여 고립되어 있는 특징량을 강조하여 표시하는 화면의 일례를 도시하는 도면.
도 9는 교사 정보 부여 작업 화면에서 재매핑을 행하는 영역을 지정하는 화면의 일례를 도시하는 도면.
도 10은 재매핑을 권장하는 영역의 결정 처리 수순의 일례를 도시하는 도면.
이하 본 발명의 실시예에 대해서, 도면을 참조하여 상세하게 설명한다.
실시예 1
실시예 1은 화상군에 포함되는 화상 중 동일한 화상에 대하여 다른 노이즈를 부여하여 생성된 제1 화상군과, 다른 화상에 의해 구성되는 제2 화상군을 생성하고, 상기 제1 화상군으로부터 얻어지는 특징량이 근사하도록 학습하고, 상기 제2 화상군으로부터 얻어지는 특징량은 보다 다르게 학습하고, 특징량을 추출하는 특징량 추출부와, 추출한 복수의 특징량을, 다양체 학습을 사용하여 2차원 또는 3차원으로 매핑하는 특징량 매핑부와, 매핑 결과를 표시하고, 교사 정보 부여 작업을 행하는 교사 정보 부여 작업 화면을 표시하는 표시부를 구비하는 구성의 화상 분류 장치 및 그 방법의 실시예이다.
도 1에 실시예 1에 관한 화상 분류 장치의 일 구성예를 도시한다. 본 실시예의 화상 분류 장치는, 화상군 D2에 포함되는 화상의 특징량을 화상 분류 모델 D1을 사용하여 추출하는 특징량 추출부(101)와, 복수의 특징량 D3을 2차원 또는 3차원으로 매핑하는 특징량 매핑부(102)와, 교사 정보 부여 작업 화면을 표시하는 표시부(103)를 구비하고, 올바르게 특징마다 분리된 특징량 분포도를 표시하고, 효율적인 교사 정보 부여 작업을 실현한다. 특징량 추출부(101)나 특징량 매핑부(102)는, 통상의 중앙 처리부(CPU)에서 소정의 기능 처리 프로그램을 실행함으로써 실현할 수 있다.
특징량 추출부(101)는 화상 분류 모델의 특징량 추출기(101-1)와 단계적으로 차원을 축약하기 위한 차원 축약기(101-2)로 구성된다. 심층 학습에서 사용하는 화상 분류 모델의 특징량 추출기가 출력하는 특징량의 차원수는 1000 이상인 경우가 있고, 직접 특징량 매핑부(102)에 입력하여 2차원 또는 3차원으로 매핑할 때, 차원수의 차가 크고 중요한 특징이 삭감되어 버릴 가능성이 있기 때문에, 차원 축약기(101-2)를 사용하여 단계적으로 차원을 축약한다. 이때 복수의 특징량 D3은 특징량 추출기가 출력하는 차원수 이하, 4 이상의 차원이다. 여기서, 차원 축약기는 뉴럴 네트워크 등을 사용함으로써 실현할 수 있다. 특징량 매핑부(102)는 일례로서 다양체 학습을 사용한 매핑을 사용함으로써 실현할 수 있다.
화상 분류 모델 D1은 교사 정보 부여 후에 학습시키고자 하는 모델이어도 되고, 그렇지 않아도 된다. 입력이 되는 화상군 D2는 교사 정보가 부여되어 있는 화상군과 교사 정보가 부여되어 있지 않은 화상군으로 구성된다. 여기서 교사 정보와는 화상에 주로 찍혀 있는 대상물의 클래스를 나타내고 있다. 이때, 교사 정보가 부여되어 있지 않은 화상군의 화상은 교사 정보가 부여되어 있는 화상군이 갖는 어느 것의 클래스로 분류되지 않는 화상이어도 된다. 또한, 교사 정보가 부여되어 있지 않은 화상군의 화상은 교사 정보가 부여되어 있는 화상군의 대소는 불문한다.
도 2는 도 1의 특징량 추출부(101)의 처리의 일례를 도시한다. 처리 스텝 S201에서는 화상 분류 모델 D1의 특징량 추출기(101-1)와 차원 축약기(101-2)를, 화상군 D2를 사용하여 학습하고, 처리 스텝 S202에서는 학습된 특징량 추출기(101-1)와 차원 축약기(101-2)를 사용하여 화상군의 특징량을 추출, 차원을 축약하여 출력한다.
도 3은 화상 분류 모델 D1의 특징량 추출기(101)를 학습하는 방법의 수순예를 설명하는 도면이다. 특징량 추출부(101)는 화상 분류 모델 D1의 특징량 추출기 D1-1의 2종류의 학습을 동시에 행한다.
한쪽은 교사 정보를 사용하는 학습이고, 처리 스텝 S301에서 교사 정보가 부여되어 있는 화상군을 사용하여 특징량 추출기(101-1)와 차원 축약기(101-2)의 지도 학습을 행한다.
다른 한쪽에는 교사 정보를 사용하지 않고 학습을 행하고, 처리 스텝 S302 이후에 나타낸다. 처리 스텝 S302에서는 화상군 D2로부터 화상을 복수매 취득하여 1매의 화상 D4와 그 이외의 화상군인 제2 화상군 D5로 나눈다. 이때, 취득하는 매수는 2매 이상으로 하고, 제2 화상군 D5의 매수는 1매 이상으로 한다.
처리 스텝 S303에서는 1매의 화상 D4에 대하여 화상에 찍혀 있는 대상물의 클래스가 변하지 않는 정도의 복수 패턴의 노이즈를 부여하고, 복수의 화상을 생성하고 제1 화상군 D6으로 한다. 처리 스텝 S304에서는 1매의 화상 D4로부터 생성되어 있는 제1 화상군 D6의 특징량은 근사하도록 학습하고, 처리 스텝 S305에서는 복수의 다른 화상으로 구성되어 있는 제2 화상군 D5의 특징량은 보다 다르게 학습한다.
처리 스텝 S304에서는 예를 들어 제1 화상군의 각 특징량끼리의 유사도를 코사인 유사도 등을 사용하여 평가하고, 유사도가 커지도록 학습함으로써 실현할 수 있다. 처리 스텝 S305에서는 마찬가지로 유사도가 작아지도록 학습함으로써 실현할 수 있다. 유사도의 평가는 유클리드 거리의 평균값을 사용해도 되고, 방법을 한정하지 않는다.
도 4는 처리 스텝 S303에서 부여하는 다른 노이즈의 예를 도시한다. 달의 화상 IM0에 노이즈를 부여한 예를, 화상 IM1, 화상 IM2, 화상 IM3, 화상 IM4에 나타내고 있다. 화상 IM0은 화상 중 달의 화소보다도 달이 아닌 부분의 화소의 쪽이 많으므로, 주성분 분석에 의한 매핑에서는 화상군에 포함되는 달의 화상군에 있어서, 달이 아닌 부분의 화소 변동을 주성분으로 하여 매핑을 행해 버리는 경우가 있다.
화상 IM1, 화상 IM2, 화상 IM3은 기하적인 노이즈이다. 화상 IM1은 화상 IM0의 일부 랜덤한 영역을 크롭하는 노이즈를 추가한 예이다. 이때, 크롭하는 영역의 사이즈는 가능한 한 달의 화소가 포함되는 사이즈가 바람직하다. 화상 IM2는 화상 IM0을 좌우 반전한 예이다. 화상 IM3은 화상 IM0을 시계 방향으로 90도 회전한 예이고, 회전하는 각도는 한정하지 않는다. 이러한 화상을 복수매 생성하고, 처리 스텝 S304에서 학습함으로써 달의 화소와 비교하여 다른 화상끼리 변동이 많은 달이 아닌 화소(예를 들어 구름의 형태 등)는 중요하지 않다고 하는 학습을 행할 수 있다.
화상 IM4는 화상 IM0의 화소마다 랜덤한 값을 더한 예이다. 이러한 화상을 복수매 생성하고, 처리 스텝 S304에서 학습함으로써, 화소값의 노이즈에 의한 변동은 중요한 특징이 아닌 것을 학습할 수 있다.
처리 스텝 S304에서는 도 4에 도시하는 노이즈를 복합시켜도 되고, 랜덤하게 복합시킴으로써 복수의 화상을 생성할 수 있다.
도 5에서는 표시부(103)의 교사 정보 부여 작업 화면에서 나타내어지는 특징량 분포의 영역을 지정하여 일괄적으로 교사 정보를 부여하는 화면의 일례를 도시한다. 유저는 특징량 분포를 확인하고, 잘 분리되어 있는 복수의 특징량을, 영역을 지정함으로써 Class1로서 일괄적으로 교사 정보를 부여할 수 있다.
도 6에서는 표시부(103)의 교사 정보 부여 작업 화면에서 표시되는 특징량 분포에서 각 화상이 분포된 위치에 화상의 섬네일을 표시한 화면의 일례를 도시한다. 유저에게 섬네일을 제시함으로써 특징량 분포의 정확성을 용이하게 확인할 수 있고, 효율적으로 교사 정보를 부여할 수 있다.
도 7에서는 표시부(103)의 교사 정보 부여 작업 화면에서 표시되는 특징량 분포에서 복수의 특징량이 밀집되어 다른 특징량과 잘 분리되어 있는 영역을 강조하여 표시하는 일례를 도시한다. 강조하여 표시하는 영역의 결정 방법의 일례로서, X-means 등을 사용하여 매핑된 복수의 특징량을 클러스터링하고, 클러스터의 분산이 작고, 다른 클러스터와의 거리가 큰 클러스터의 영역을 강조한다. 여기서의 거리는 유클리드 거리 등을 사용하여 실현할 수 있다.
도 8에서는 표시부(103)의 교사 정보 부여 작업 화면에서 표시되는 특징량 분포에서 다른 특징량과 비교하여 고립되어 있는 특징량을 강조하여 표시하는 화면의 일례를 도시한다. 강조하여 표시하는 특징량의 결정 방법의 일례로서, 근방의 특징량과의 거리가 큰 점을 강조한다.
여기서 대상의 특징량이 있는 거리 이하의 범위에서 분포되어 있는 특징량의 개수가 적은 경우에 강조하는 특징량으로서 결정해도 되고, 다른 특징량까지의 거리의 평균이 큰 경우에 강조하는 특징량으로서 결정해도 된다.
도 9에서는 표시부(103)의 교사 정보 부여 작업 화면에서 표시되는 특징량 분포에서 재매핑을 행하는 영역을 지정하는 화면의 일례를 도시한다. 매핑된 복수의 특징량은 잘 분리되어 변동이 적은 복수의 특징량과 그다지 분리되어 있지 않고 변동이 많은 복수의 특징량이 표시되는 경우가 있고, 이 경우 변동이 많은 복수의 특징량만을 사용하여 특징량 매핑부에서 재매핑을 행함으로써 잘 분리되어 변동이 적은 복수의 특징량을 표시하는 것이 가능해진다.
도 10에서는 재매핑을 권장하는 영역의 결정 처리 수순의 일례를 설명한다. 특징량 추출부에 의해 출력된 복수의 특징량 D3을 클러스터링 결과 CL1과 특징량 매핑부(102)에 의해 출력된 2차원 또는 3차원의 복수의 특징량 D6의 클러스터링 결과 CL2를 비교하고, 결과가 다른 특징량이 많은 영역을 재매핑해야 할 영역으로서 표시(S1002)한다.
매핑 전의 복수의 특징량을 X-means 등으로 클러스터링하고, 2차원 또는 3차원으로 매핑된 복수의 특징량을 마찬가지로 클러스터링하고, 각각의 클러스터링 결과 CL1, CL2를 얻는다. 매핑 후 클러스터 i의 복수의 특징량에 대응하는 매핑 전의 복수의 특징량이 소속된 클러스터의 다수파를 매핑 전 클러스터 i로 한다. 매핑 후 클러스터 i에 대응하는 복수의 특징량 중 매핑 전 클러스터 i가 아닌 특징량의 개수를 계산하고, 역치를 초과하면 매핑 전 클러스터 i의 영역을 재매핑을 권장하는 영역으로서 표시한다.
이상 설명한 본 발명에 따르면, 중요한 화상 내의 작은 영역을 중요한 특징량으로서 파악하는 것과 노이즈에 로버스트한 특징량 추출을 행할 수 있어, 2차원 또는 3차원으로 매핑하는 것이 가능해진다. 이에 의해, 적절한 교사 데이터 작성을 지원하고, 화상 분류 모델의 정밀도 향상에 필요한 공정수를 삭감할 수 있다.
본 발명은 상기한 실시예에 한정되는 것은 아니며, 다양한 변형예가 포함된다. 예를 들어, 상기한 실시예는 본 발명의 보다 좋은 이해를 위해 상세하게 설명한 것이며, 반드시 설명의 모든 구성을 구비하는 것에 한정되는 것은 아니다. 또한, 상술한 각 구성, 기능 등은, 그들의 일부 또는 전부를 실현하는 프로그램을 작성하는 예를 중심으로 설명했지만, 그들의 일부 또는 전부를 예를 들어 집적 회로로 설계하는 등에 의해 하드웨어로 실현해도 되는 것은 물론이다. 즉, 처리부의 전부 또는 일부의 기능은 프로그램 대신에, 예를 들어 ASIC(Application Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 등의 집적 회로 등에 의해 실현해도 된다.
101: 특징량 추출부
102: 특징량 매핑부
103: 교사 정보 부여 작업 화면
104: 재매핑
105: 재매핑 결과
102: 특징량 매핑부
103: 교사 정보 부여 작업 화면
104: 재매핑
105: 재매핑 결과
Claims (11)
- 화상 분류를 행하는 화상 분류 장치이며,
화상군에 포함되는 화상 중 동일한 화상에 대하여 다른 노이즈를 부여하여 생성된 제1 화상군과, 다른 화상에 의해 구성되는 제2 화상군을 생성하고, 상기 제1 화상군으로부터 얻어지는 특징량이 근사하도록 학습하고, 상기 제2 화상군으로부터 얻어지는 특징량은 보다 다르게 학습하고, 특징량을 추출하는 특징량 추출부와,
추출한 복수의 특징량을, 다양체 학습을 사용하여 2차원 또는 3차원으로 매핑하는 특징량 매핑부와,
매핑 결과를 표시하고, 교사 정보 부여 작업을 행하는 교사 정보 부여 작업 화면을 표시하는 표시부
를 구비하는,
것을 특징으로 하는 화상 분류 장치. - 제1항에 있어서,
상기 특징량 추출부는, 추출된 특징량의 차원수가 큰 경우에 의한 다양체 학습에 의한 매핑의 정밀도 악화를 회피하는 것을 목적으로 교사 정보를 사용하여 학습된 차원 축약부를 구비하는,
것을 특징으로 하는 화상 분류 장치. - 제1항에 있어서,
상기 교사 정보 부여 작업 화면은, 지정된 영역 내에 포함되는 복수의 특징량을 재매핑하여 표시하는,
것을 특징으로 하는 화상 분류 장치. - 제1항에 있어서,
상기 교사 정보 부여 작업 화면은, 매핑된 복수의 특징량 중 근방점과의 거리가 먼 특징량을 강조하여 표시하는,
것을 특징으로 하는 화상 분류 장치. - 제1항에 있어서,
상기 교사 정보 부여 작업 화면은, 매핑된 복수의 특징량 중 특징량 분포의 밀도가 높은 영역을 강조하여 표시하는,
것을 특징으로 하는 화상 분류 장치. - 제1항에 있어서,
상기 교사 정보 부여 작업 화면은, 복수의 특징량이 매핑된 위치에 화상의 섬네일을 표시하는 것을 특징으로 하는 화상 분류 장치. - 제1항에 있어서,
상기 교사 정보 부여 작업 화면은, 매핑된 복수의 특징량을 맵 상에서 영역 선택에 의해 일괄적으로 교사 정보 부여할 수 있는 것을 특징으로 하는 화상 분류 장치. - 제1항에 있어서,
상기 교사 정보 부여 작업 화면은, 상기 특징량 추출부에 의해 출력된 복수의 특징량의 클러스터링 결과와 상기 특징량 매핑부에 의해 출력된 2차원 또는 3차원의 좌표를 사용한 클러스터링 결과를 비교하고, 결과가 다른 경우는 재매핑해야 할 영역을 표시하는,
것을 특징으로 하는 화상 분류 장치. - 화상 분류를 행하는 화상 분류 방법이며,
화상군에 포함되는 화상 중 동일한 화상에 대하여 다른 노이즈를 부여하여 생성된 제1 화상군과, 다른 화상에 의해 구성되는 제2 화상군을 생성하고, 상기 제1 화상군으로부터 얻어지는 특징량이 근사하도록 학습하고, 상기 제2 화상군으로부터 얻어지는 특징량은 보다 다르게 학습하고, 특징량을 추출하고,
추출한 복수의 특징량을, 다양체 학습을 사용하여 2차원 또는 3차원으로 매핑하고,
매핑 결과를 교사 정보 부여 작업 화면에 표시하는,
것을 특징으로 하는 화상 분류 방법. - 제9항에 있어서,
추출된 특징량의 차원수가 큰 경우에 의한 다양체 학습에 의한 매핑의 정밀도 악화를 회피하는 것을 목적으로 차원을 축약하여 출력하는,
것을 특징으로 하는 화상 분류 방법. - 제9항에 있어서,
상기 교사 정보 부여 작업 화면은, 복수의 특징량의 클러스터링 결과와 상기 2차원 또는 3차원의 좌표를 사용한 클러스터링 결과를 비교하고, 결과가 다른 경우는 재매핑해야 할 영역을 표시하는,
것을 특징으로 하는 화상 분류 방법.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/028252 WO2023007693A1 (ja) | 2021-07-30 | 2021-07-30 | 画像分類装置及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240012520A true KR20240012520A (ko) | 2024-01-29 |
Family
ID=85086592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020237044265A KR20240012520A (ko) | 2021-07-30 | 2021-07-30 | 화상 분류 장치 및 방법 |
Country Status (3)
Country | Link |
---|---|
KR (1) | KR20240012520A (ko) |
CN (1) | CN117597707A (ko) |
WO (1) | WO2023007693A1 (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019066993A (ja) | 2017-09-29 | 2019-04-25 | 株式会社Screenホールディングス | 教師データ作成支援装置、分類装置および教師データ作成支援方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6282045B2 (ja) * | 2013-05-23 | 2018-02-21 | キヤノン株式会社 | 情報処理装置および方法、プログラム、記憶媒体 |
JP7014100B2 (ja) * | 2018-08-27 | 2022-02-01 | 日本電信電話株式会社 | 拡張装置、拡張方法及び拡張プログラム |
-
2021
- 2021-07-30 WO PCT/JP2021/028252 patent/WO2023007693A1/ja active Application Filing
- 2021-07-30 KR KR1020237044265A patent/KR20240012520A/ko unknown
- 2021-07-30 CN CN202180100164.XA patent/CN117597707A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019066993A (ja) | 2017-09-29 | 2019-04-25 | 株式会社Screenホールディングス | 教師データ作成支援装置、分類装置および教師データ作成支援方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023007693A1 (ja) | 2023-02-02 |
CN117597707A (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100762670B1 (ko) | 스테레오 이미지로부터 디스패리티 맵을 생성하는 방법 및장치와 그를 위한 스테레오 매칭 방법 및 장치 | |
CN111275034B (zh) | 从图像中提取文本区域的方法、装置、设备和存储介质 | |
CN108762740B (zh) | 页面数据的生成方法、装置及电子设备 | |
CN110390327B (zh) | 前景提取方法、装置、计算机设备及存储介质 | |
US20180253852A1 (en) | Method and device for locating image edge in natural background | |
CN110807379B (zh) | 一种语义识别方法、装置、以及计算机存储介质 | |
CN108520263B (zh) | 一种全景图像的识别方法、系统及计算机存储介质 | |
US20020145603A1 (en) | Image space display method and apparatus | |
US10268881B2 (en) | Pattern classifying apparatus, information processing apparatus, pattern classifying method, and non-transitory computer readable storage medium | |
Chen | Optimizing star-coordinate visualization models for effective interactive cluster exploration on big data | |
CN113506305B (zh) | 三维点云数据的图像增强方法、语义分割方法及装置 | |
CN114758145A (zh) | 一种图像脱敏方法、装置、电子设备及存储介质 | |
CN111369489A (zh) | 一种图像识别方法、装置及终端设备 | |
US8971669B2 (en) | Method and apparatus for image processing | |
US11783625B2 (en) | Method for verifying the identity of a user by identifying an object within an image that has a biometric characteristic of the user and separating a portion of the image comprising the biometric characteristic from other portions of the image | |
JP2013164832A (ja) | オブジェクト認識装置および方法 | |
KR20240012520A (ko) | 화상 분류 장치 및 방법 | |
Ledoux et al. | Texture classification with fuzzy color co-occurrence matrices | |
JPWO2016117564A1 (ja) | プログラム、情報記憶媒体及び認識装置 | |
KR102405168B1 (ko) | 데이터 셋 생성 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 | |
Northcote et al. | FPGA implementation of a memory-efficient Hough parameter space for the detection of lines | |
TW201939354A (zh) | 車牌辨識方法以及其系統 | |
KR20230052169A (ko) | Shap 기반 이미지 어노테이션 생성 장치 및 방법 | |
JP7107544B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
US20240362892A1 (en) | Image Classification Device and Image Classification Method |