KR20210129874A - 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치 - Google Patents
촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치 Download PDFInfo
- Publication number
- KR20210129874A KR20210129874A KR1020200047932A KR20200047932A KR20210129874A KR 20210129874 A KR20210129874 A KR 20210129874A KR 1020200047932 A KR1020200047932 A KR 1020200047932A KR 20200047932 A KR20200047932 A KR 20200047932A KR 20210129874 A KR20210129874 A KR 20210129874A
- Authority
- KR
- South Korea
- Prior art keywords
- image data
- image
- feature vector
- vector sequence
- label
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000003062 neural network model Methods 0.000 claims abstract description 96
- 239000013598 vector Substances 0.000 claims description 152
- 230000006870 function Effects 0.000 claims description 38
- 238000010191 image analysis Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 3
- 238000003703 image analysis method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 208000001836 Firesetting Behavior Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G06T5/001—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치가 개시된다. 상기 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치는 관재 대상 현장에 설치된 타 지능형 영상 촬영 장치로부터 수신된 적어도 하나의 영상 데이터를 이용하여 신경망 모델의 영상 복원 및 영상 분류를 수행하고, 영상 복원 및 영상 분류에 의해 출력된 출력값에 의해 복원 오차를 산출하여, 오차가 보정된 고정밀 및 고정확한 신경망 모델을 학습할 수 있으며, 학습된 신경망 모델을 지속적으로 갱신하여 신규 촬영된 영상 데이터의 정보를 반영함으로써, 고정확 및 고성능의 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치를 제공할 수 있다.
Description
본 발명은 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치에 관한 것으로, 신경망 모델을 지속적으로 갱신하여 실시간으로 촬영되는 영상 데이터들을 정밀하게 분석하는 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치에 관한 것이다.
일반적으로, 영상 촬영 장치(Closed Circuit Television, CCTV)로부터 획득한 영상 데이터를 분석(Video Analytics)하는 기능은 통합관제센터에 의해 수행되었다. 보다 자세히 설명하면, 통합관제센터는 다수의 영상 촬영 장치들과 연동되어, 영상 촬영 장치들로부터 전송된 영상 데이터를 바탕으로 특정 객체를 식별 및 추적하거나 침입, 싸움, 방화 등 이상 행위를 자동으로 식별하여 감시 인력에게 경보를 제공하였다.
그러나, 최근에는 신속한 초동 대응 및 개인정보 침해 우려 등의 이유로, 종래에는 엣지(Edge) 단에 위치한 영상 촬영 장치에 영상 분석 기능이 적용된 지능형 영상 촬영 장치를 개발 중에 있다.
종래의 지능형 영상 촬영 장치는 잦은 오검출 및 미검출 등의 성능 저하 문제가 여전히 발생되고 있다. 이에, 최근에는 영상 분석 기능의 성능 향상을 위해, 지능형 영상 촬영 장치에 신경망 모델을 적용하는 방법이 주목 받고 있다.
보다 자세히 설명하면, 다양한 관제 현장에 설치된 지능형 영상 촬영 장치들이 안정적이고 신뢰할 만한 영상 분석을 수행하기 위해서는, 통합관제센터와 같은 특정 장소에서 관제 대상이 되는 모든 현장을 촬영한 다량의 실제 영상 데이터들을 수집하여 라벨(label)을 부착하고, 라벨링(labeling)된 영상 데이터들을 바탕으로 단일 신경망 모델을 학습하여, 학습된 단일 신경망 모델이 지능형 영상 촬영 장치들에 일괄적으로 적용되어야 한다.
그러나, 통합관제센터의 경우 데이터를 외부로 반출하거나 또는 허용된 수집 목적 이외의 용도로 활용하는 것이 엄격히 제한되어 있으며, 특별한 사유가 없는 한 한달 동안만 보관 후 폐기하도록 되어 있다.
또한, 특정 장소에서 단일 신경망 모델을 학습할 경우, 개인정보 노출의 우려가 있고, 현장 영상 데이터들의 라벨링 시 다량의 시간이 소요되는 단점이 있다.
그리고, 라벨링을 수행하여 신경망 모델을 사전 학습한다고 하더라도, 관제 대상 현장에서 인식해야 하는 다양한 환경에 대한 영상 데이터를 모두 학습하는 것은 불가능하므로, 시간이 지남에 따라 성능이 저하되는 문제가 발생하는 단점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 고정밀, 고성능 및 고효율의 촬영 영상 데이터의 분석을 위한 모델 학습 장치를 제공하는 데 있다.
또한, 상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은 고정밀, 고성능 및 고효율의 촬영 영상 데이터의 분석을 위한 모델 학습 방법을 제공하는 데 있다.
또한, 상기와 같은 문제점을 해결하기 위한 본 발명의 또다른 목적은 고정밀, 고성능 및 고효율의 지능형 영상 촬영 장치를 제공하는 데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 촬영 영상 데이터를 분석하기 위한 모델 학습 방법은, 라벨이 없는 적어도 하나의 제1 영상 데이터 및 라벨이 있는 적어도 하나의 제2 영상 데이터를 신경망 모델에 입력하여, 영상 환경에 특화된 복원 영상을 획득하는 단계, 상기 제1 영상 데이터, 상기 제2 영상 데이터, 상기 제2 영상 데이터의 라벨 및 상기 제1 영상 데이터 또는 상기 제2 영상 데이터 중 어느 카테고리에 속하는지에 대한 정보를 포함하는 도메인 라벨을 상기 신경망 모델에 입력하여, 상기 제2 영상 데이터 및 상기 도메인 라벨의 예측 라벨을 획득함으로써 상기 예측 라벨의 신뢰도를 추정하는 단계, 상기 제1 영상 데이터, 상기 제2 영상 데이터, 상기 제2 영상 데이터의 예측 라벨 및 상기 도메인 라벨의 예측 라벨을 이용하여 손실 함수를 산출하는 단계 및 상기 손실 함수가 최소화되도록 신경망 모델의 파라미터를 갱신하는 단계를 포함한다.
이때, 상기 제1 영상 데이터는 현장 영상 데이터이며, 상기 제2 영상 데이터는 공개된 영상 데이터일 수 있다.
또한, 상기 제1 영상 데이터는 관제 대상 현장에 설치된 적어도 하나의 지능형 영상 촬영 장치로부터 수신될 수 있다.
상기 복원 영상을 획득하는 단계는, 상기 제1 영상 데이터 및 상기 제2 영상 데이터들을 특징 벡터열들로 변환하는 단계 및 상기 변환된 특징 벡터열들을 제1 복원 영상 및 제2 복원 영상으로 변환하는 단계를 포함할 수 있다.
여기서, 상기 변환된 특징 벡터열들을 제1 복원 영상 및 제2 복원 영상으로 변환하는 단계는, 제1 인코딩 모듈을 이용하여, 상기 제1 영상 데이터를 제1 특징 벡터열로 변환하는 단계, 제2 인코딩 모듈을 이용하여, 상기 제2 영상 데이터를 제2 특징 벡터열로 변환하는 단계 및 공용 인코딩 모듈을 이용하여, 상기 제1 영상 데이터 및 상기 제2 영상 데이터를 각각 제1 공용 특징 벡터열 및 제2 공용 특징 벡터열로 변환하는 단계를 포함할 수 있다.
이때, 상기 변환된 특징 벡터열들을 제1 복원 영상 및 제2 복원 영상으로 변환하는 단계는, 제1 디코딩 모듈에 의해 상기 제1 특징 벡터열 및 상기 제1 공용 특징 벡터열을 결합하여 상기 제1 복원 영상을 획득하는 단계 및 제2 디코딩 모듈에 의해 상기 제2 특징 벡터열 및 상기 제2 공용 특징 벡터열을 결합하여 상기 제2 복원 영상을 획득하는 단계를 포함할 수 있다.
또한, 상기 제1 영상 데이터, 상기 제2 영상 데이터 및 상기 도메인 라벨의 예측 라벨을 획득함으로써 상기 예측 라벨의 신뢰도를 추정하는 단계는, 제1 영상 특징 벡터열을 이용하여 상기 제1 영상 데이터가 속하는 제1 예측 라벨의 신뢰도를 추정하는 단계, 제2 영상 특징 벡터열을 이용하여 상기 제2 영상 데이터가 속하는 제2 예측 라벨의 신뢰도를 추정하는 단계 및 상기 제1 공용 특징 벡터열 및 상기 제2 공용 특징 벡터열을 이용하여 대상 영상이 상기 제1 영상 데이터인지 또는 상기 제2 영상 데이터인지의 여부를 추정한 예측 도메인 라벨을 획득하는 단계를 포함할 수 있다.
이때, 상기 제1 영상 특징 벡터열은 상기 제1 특징 벡터열 및 상기 제1 공용 특징 벡터열을 결합하여 생성되고, 상기 제2 영상 특징 벡터열은 상기 제2 특징 벡터열 및 상기 제2 공용 특징 벡터열을 결합하여 생성될 수 있다.
또한, 상기 손실 함수를 산출하는 단계는, 상기 제1 특징 벡터열과 상기 제1 공용 특징 벡터열 간의 유사도를 이용하여 제1 유사도 손실을 산출하는 단계, 상기 제2 특징 벡터열과 상기 제2 공용 특징 벡터열 간의 유사도를 이용하여 제2 유사도 손실을 산출하는 단계, 상기 제1 영상 데이터와 상기 제1 복원 영상 간의 오차를 이용하여 제1 복원 손실을 산출하는 단계, 상기 제2 영상 데이터와 상기 제2 복원 영상 간의 오차를 이용하여 제2 복원 손실을 산출하는 단계, 상기 제2 영상 데이터의 라벨과 상기 제2 예측 라벨 간의 오차로부터 분류 손실을 산출하는 단계, 상기 도메인 라벨과 예측 도메인 라벨의 오차를 이용하여 도메인 감별 손실을 산출하는 단계 및 상기 제1 유사도 손실과 상기 제2 유사도 손실, 상기 제1 복원 손실과 상기 제2 복원 손실, 상기 분류 손실 및 상기 도메인 감별 손실 중 적어도 하나를 결합하여 상기 손실 함수를 산출하는 단계를 포함할 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 촬영 영상 데이터를 분석하기 위한 모델 학습 장치는, 메모리(memory) 및
상기 메모리에 저장된 적어도 하나의 명령을 실행하는 프로세서(processor)를 포함하되, 상기 적어도 하나의 명령은, 라벨이 없는 적어도 하나의 제1 영상 데이터 및 라벨이 있는 적어도 하나의 제2 영상 데이터를 신경망 모델에 입력하여, 영상 환경에 특화된 복원 영상을 획득하도록 하는 명령, 상기 제1 영상 데이터, 상기 제2 영상 데이터, 상기 제2 영상 데이터의 라벨 및 상기 제1 영상 데이터 또는 상기 제2 영상 데이터 중 어느 카테고리에 속하는지에 대한 정보를 포함하는 도메인 라벨을 상기 신경망 모델에 입력하여, 상기 제2 영상 데이터 및 상기 도메인 라벨의 예측 라벨을 획득함으로써 상기 예측 라벨의 신뢰도를 추정하도록 하는 명령, 상기 제1 영상 데이터, 상기 제2 영상 데이터, 상기 제2 영상 데이터의 예측 라벨 및 상기 도메인 라벨의 예측 라벨을 이용하여 손실 함수를 산출하도록 하는 명령 및 상기 손실 함수가 최소화되도록 신경망 모델의 파라미터를 갱신하도록 하는 명령을 포함한다.
이때, 상기 제1 영상 데이터는 현장 영상 데이터이며, 상기 제2 영상 데이터는 공개된 영상 데이터일 수 있다.
또한, 상기 제1 영상 데이터는 관제 대상 현장에 설치된 적어도 하나의 지능형 영상 촬영 장치로부터 수신될 수 있다.
상기 복원 영상을 획득하도록 하는 명령은, 상기 제1 영상 데이터 및 상기 제2 영상 데이터들을 특징 벡터열들로 변환하도록 하는 명령 및 상기 변환된 특징 벡터열들을 제1 복원 영상 및 제2 복원 영상으로 변환하도록 하는 명령을 포함할 수 있다.
여기서, 상기 변환된 특징 벡터열들을 제1 복원 영상 및 제2 복원 영상으로 변환하도록 하는 명령은, 제1 인코딩 모듈을 이용하여, 상기 제1 영상 데이터를 제1 특징 벡터열로 변환하도록 하는 명령, 제2 인코딩 모듈을 이용하여, 상기 제2 영상 데이터를 제2 특징 벡터열로 변환하도록 하는 명령 및 공용 인코딩 모듈을 이용하여, 상기 제1 영상 데이터 및 상기 제2 영상 데이터를 각각 제1 공용 특징 벡터열 및 제2 공용 특징 벡터열로 변환하도록 하는 명령을 포함할 수 있다.
이때, 상기 변환된 특징 벡터열들을 제1 복원 영상 및 제2 복원 영상으로 변환하도록 하는 명령은, 제1 디코딩 모듈에 의해 상기 제1 특징 벡터열 및 상기 제1 공용 특징 벡터열을 결합하여 상기 제1 복원 영상을 획득하도록 하는 명령 및 제2 디코딩 모듈에 의해 상기 제2 특징 벡터열 및 상기 제2 공용 특징 벡터열을 결합하여 상기 제2 복원 영상을 획득하도록 하는 명령을 포함할 수 있다.
또한, 상기 제1 영상 데이터, 상기 제2 영상 데이터 및 상기 도메인 라벨의 예측 라벨을 획득함으로써 상기 예측 라벨의 신뢰도를 추정하도록 하는 명령은, 제1 영상 특징 벡터열을 이용하여 상기 제1 영상 데이터가 속하는 제1 예측 라벨의 신뢰도를 추정하도록 하는 명령, 제2 영상 특징 벡터열을 이용하여 상기 제2 영상 데이터가 속하는 제2 예측 라벨의 신뢰도를 추정하도록 하는 명령 및 상기 제1 공용 특징 벡터열 및 상기 제2 공용 특징 벡터열을 이용하여 대상 영상이 상기 제1 영상 데이터인지 또는 상기 제2 영상 데이터인지의 여부를 추정한 예측 도메인 라벨을 획득하도록 하는 명령을 포함할 수 있다.
이때, 상기 제1 영상 특징 벡터열은 상기 제1 특징 벡터열 및 상기 제1 공용 특징 벡터열을 결합하여 생성되고, 상기 제2 영상 특징 벡터열은 상기 제2 특징 벡터열 및 상기 제2 공용 특징 벡터열을 결합하여 생성될 수 있다.
또한, 상기 손실 함수를 산출하도록 하는 명령은, 상기 제1 특징 벡터열과 상기 제1 공용 특징 벡터열 간의 유사도를 이용하여 제1 유사도 손실을 산출하도록 하는 명령, 상기 제2 특징 벡터열과 상기 제2 공용 특징 벡터열 간의 유사도를 이용하여 제2 유사도 손실을 산출하도록 하는 명령, 상기 제1 영상 데이터와 상기 제1 복원 영상 간의 오차를 이용하여 제1 복원 손실을 산출하도록 하는 명령, 상기 제2 영상 데이터와 상기 제2 복원 영상 간의 오차를 이용하여 제2 복원 손실을 산출하도록 하는 명령, 상기 제2 영상 데이터의 라벨과 제2 예측 라벨 간의 오차로부터 분류 손실을 산출하도록 하는 명령, 상기 도메인 라벨과 예측 도메인 라벨의 오차를 이용하여 도메인 감별 손실을 산출하도록 하는 명령 및 상기 제1 유사도 손실과 상기 제2 유사도 손실, 상기 제1 복원 손실과 상기 제2 복원 손실, 상기 분류 손실 및 상기 도메인 감별 손실 중 적어도 하나를 결합하여 상기 손실 함수를 산출하도록 하는 명령을 포함할 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 촬영 영상 데이터를 분석하기 위한 모델 학습 장치는, 메모리(memory) 및 상기 메모리에 저장된 적어도 하나의 명령을 실행하는 프로세서(processor)를 포함하되, 상기 적어도 하나의 명령은, 라벨이 없는 적어도 하나의 제1 영상 데이터 및 라벨이 있는 적어도 하나의 제2 영상 데이터를 바탕으로 신경망 모델을 학습하도록 하는 명령, 상기 신경망 모델을 적용하여, 신규 획득한 제3 영상 데이터에 대한 영상 분석을 수행하도록 하는 명령 및 상기 영상 분석 결과에 따라 상기 신경망 모델을 갱신하도록 하는 명령을 포함하고, 상기 신경망 모델을 학습하도록 하는 명령은, 상기 제1 영상 데이터 및 상기 제2 영상 데이터를 신경망 모델에 입력하여, 영상 환경에 특화된 복원 영상을 획득하도록 하는 명령, 상기 제1 영상 데이터, 상기 제2 영상 데이터, 상기 제2 영상 데이터의 라벨 및 상기 제1 영상 데이터 또는 상기 제2 영상 데이터 중 어느 카테고리에 속하는지에 대한 정보를 포함하는 도메인 라벨을 상기 신경망 모델에 입력하여, 상기 제2 영상 데이터 및 상기 도메인 라벨의 예측 라벨을 산출함으로써 상기 예측 라벨의 신뢰도를 추정하도록 하는 명령, 상기 제1 영상 데이터, 상기 제2 영상 데이터, 상기 제2 영상 데이터의 예측 라벨 및 상기 도메인 라벨의 예측 라벨을 이용하여 손실 함수를 산출하도록 하는 명령 및 상기 손실 함수가 최소화되도록 신경망 모델의 파라미터를 갱신하도록 하는 명령을 포함한다.
여기서, 상기 신경망 모델을 갱신하도록 하는 명령은, 상기 제3 영상 데이터 및 상기 제3 영상 데이터의 복원 영상 간의 평균 제곱 오차를 산출하도록 하는 명령, 상기 평균 제곱 오차가 사전 설정된 제1 임계값 대비 큰 경우, 상기 제3 영상 데이터를 저장하도록 하는 명령, 상기 제3 영상 데이터 및 상기 제3 영상 데이터의 복원 영상 간의 영상 복원 오류의 발생 누적 횟수를 산출하도록 하는 명령 및 상기 영상 복원 오류의 발생 누적 횟수 또는 상기 평균 제곱 오차의 증가 추이 중 적어도 하나가 사전 설정된 제2 임계값 대비 큰 경우, 상기 신경망 모델을 저장된 상기 제3 영상 데이터를 이용하여 갱신하도록 하는 명령을 포함할 수 있다.
본 발명의 실시예들에 따른 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치는 관재 대상 현장에 설치된 타 지능형 영상 촬영 장치로부터 수신된 적어도 하나의 영상 데이터를 이용하여 신경망 모델의 영상 복원 및 영상 분류를 수행하고, 영상 복원 및 영상 분류에 의해 출력된 출력값에 의해 복원 오차를 산출하여, 오차가 보정된 고정밀 및 고정확한 신경망 모델을 학습할 수 있으며, 학습된 신경망 모델을 지속적으로 갱신하여 신규 촬영된 영상 데이터의 정보를 반영함으로써, 고정확 및 고성능의 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치의 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치 내 프로세서의 기능별 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치 내 신경망 모델의 이미지이다.
도 4는 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치 내 신경망 모델의 손실 함수 산출을 설명하기 위한 이미지이다.
도 5는 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치 내 영상 분석부를 설명하기 위한 이미지이다.
도 6은 본 발명의 다른 실시예에 따른 지능형 영상 촬영 장치를 이용한 영상 분석 방법의 순서도이다.
도 7은 본 발명의 다른 실시예에 따른 지능형 영상 촬영 장치를 이용한 영상 분석 방법 중 신경망 모델의 갱신 여부를 판단하는 단계를 설명하기 위한 순서도이다.
도 2는 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치 내 프로세서의 기능별 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치 내 신경망 모델의 이미지이다.
도 4는 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치 내 신경망 모델의 손실 함수 산출을 설명하기 위한 이미지이다.
도 5는 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치 내 영상 분석부를 설명하기 위한 이미지이다.
도 6은 본 발명의 다른 실시예에 따른 지능형 영상 촬영 장치를 이용한 영상 분석 방법의 순서도이다.
도 7은 본 발명의 다른 실시예에 따른 지능형 영상 촬영 장치를 이용한 영상 분석 방법 중 신경망 모델의 갱신 여부를 판단하는 단계를 설명하기 위한 순서도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치의 블록 구성도이다.
도 1을 참조하면, 지능형 영상 촬영 장치(Closed Circuit Television, CCTV, 1000)는 관제 대상 현장에 설치되어 영상을 촬영하고, 지속적으로 갱신되는 신경망 모델을 이용하여 획득한 영상 데이터를 분석할 수 있다.
또한, 지능형 영상 촬영 장치(1000)는 상술된 기능에 국한되지 않고, 획득한 영상 데이터를 수집하고, 특정 수신자에게 전송 및 저장하거나 녹화, 분배 또는 관제하는 기능을 수행할 있다.
보다 구체적으로 설명하면, 지능형 영상 촬영 장치(1000)는 적어도 하나의 명령을 저장하는 메모리(100) 및 상기 메모리의 적어도 하나의 명령을 실행하는 프로세서(200)를 포함할 수 있다.
또한, 지능형 영상 촬영 장치(1000)는 상기 프로세서(200)를 통해 실행되는 네트워크와 연결되어 통신을 수행하는 송수신 장치(300), 입력 인터페이스 장치(400), 출력 인터페이스 장치(500), 저장 장치(600) 등을 더 포함할 수 있다.
실시예에 따르면, 지능형 영상 촬영 장치(1000)는 관제 대상 현장에 설치된 적어도 하나의 타 지능형 영상 장치들과 연동되어, 송수신 장치(3000)에 의해 적어도 하나의 제1 영상 데이터를 수신할 수 있다. 여기서, 제1 영상 데이터는 관제 대상 현장을 촬영한 영상 데이터일 수 있다.
지능형 영상 촬영 장치(1000)에 포함된 각각의 구성 요소들(100, 200, 300, 400, 500, 600)은 버스(bus, 700)에 의해 연결되어 서로 통신을 수행할 수 있다.
프로세서(200)는 메모리(100) 및 저장 장치(600) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 예를 들어, 프로세서(200)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다.
실시예에 따르면, 프로세서(200)는 적어도 하나의 특정 기능을 수행하는 복수의 구성들을 실행시킬 수 있다. 하기 도 2에서는 프로세서(200)의 적어도 하나의 기능들을 수행하는 구성들에 대해 보다 자세히 설명하겠다.
도 2는 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치 내 프로세서의 기능별 블록 구성도이다.
도 2를 참조하면, 프로세서(200)는 영상 획득부(210), 모델 학습부(220), 영상 분석부(230) 및 모델 갱신부(240)를 포함할 수 있다.
영상 획득부(210)는 외부로부터 적어도 하나의 영상 데이터를 획득할 수 있다.
실시예에 따라 보다 구체적으로 설명하면, 영상 획득부(210)는 제1 획득부(211) 및 제2 획득부(215)를 포함할 수 있다.
제1 획득부(211)는 후술될 신경망 모델을 학습하기 위해, 관제 대상 현장에 설치된 적어도 하나의 지능형 영상 촬영 장치 및 외부로부터 적어도 하나의 데이터를 획득할 수 있다.
실시예에 따르면, 제1 획득부(211)는 라벨이 부착되지 않은 제1 영상 데이터, 라벨이 부착된 제2 영상 데이터와 제2 영상 데이터의 영상 라벨 및 도메인 라벨 중 적어도 하나의 데이터를 획득할 수 있다.
여기서, 제1 영상 데이터는 관제 대상 현장을 촬영한 영상 데이터일 수 있으며, 제2 영상 데이터는 공개된 영상 데이터일 수 있다.
또한, 도메인 라벨은 해당 영상 데이터가 관제 대상 현장을 촬영한 제1 영상 데이터인지 또는 공개된 영상 데이터인 제2 영상 데이터인지의 카테고리 정보를 포함할 수 있다.
제2 획득부(215)는 영상 분석을 위해 신규 촬영되는 제3 영상 데이터를 획득할 수 있다. 여기서, 제3 영상 데이터는 지능형 영상 촬영 장치(1000) 내 학습된 신경망 모델이 적용된 이후에 촬영되는 영상 데이터일 수 있다. 이후, 제3 영상 데이터는 영상 분석 및 학습된 신경망 모델의 갱신을 위한 데이터로 사용될 수 있다.
모델 학습부(220)는 제1 획득부(211)에 저장된 적어도 하나의 데이터를 바탕으로 신경망 모델을 학습할 수 있다.
실시예에 따라 보다 구체적으로 설명하면, 모델 학습부(220)는 제1 획득부(211)로부터 제1 영상 데이터, 제2 영상 데이터 및 도메인 라벨 정보를 획득할 수 있다.
이후, 모델 학습부(220)는 획득한 적어도 하나의 정보를 이용하여 신경망 모델을 학습할 수 있다. 모델 학습부(220)에서 신경망 모델을 학습하는 방법은 하기 도 3을 참조하여 보다 구체적으로 설명하겠다.
도 3은 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치 내 신경망 모델의 이미지이다.
도 3을 참조하면, 모델 학습부(220)는 앞서 설명한 바와 같이, 제1 획득부(211)로부터 수신한 데이터들을 신경망 모델에 입력하여, 신경망 모델을 학습할 수 있다. 여기서, 상기 데이터들은 제1 영상 데이터, 제2 영상 데이터, 제2 영상 데이터의 라벨 및 도메인 라벨 정보를 포함할 수 있다.
모델 학습부(220)는 영상 복원 및 영상 분류을 수행하여 신경망 모델의 출력값을 획득할 수 있다. 여기서, 모델 학습부(220)는 영상 복원 및 영상 분류를 순차적으로 수행하거나 또는 동시에 수행할 수 있다.
이후, 모델 학습부(220)는 신경망 모델의 입력값 및 출력값을 이용하여, 신경망 모델의 오차를 산출하여 보정함으로써, 신경망 모델을 학습할 수 있다.
실시예에 따르면, 모델 학습부(220)은 신경망 모델을 이용한 영상 복원을 수행하여, 제1 복원 영상 및 제2 복원 영상을 생성할 수 있다.
모델 학습부(220)에 의해 수행되는 신경망 모델의 영상 복원에 대해 보다 구체적으로 설명하면, 모델 학습부(220)는 제1 인코딩 모듈(221), 제2 인코딩 모듈(222) 및 공용 인코딩 모듈(223)을 포함할 수 있다.
제1 인코딩 모듈(221)은 제1 획득부(211)로부터 수신된 제1 영상 데이터를 입력 받아, 현장 영상에 특화된 제1 특징 벡터열(hp t)로 변환할 수 있다.
또한, 제2 인코딩 모듈(222)은 제1 획득부(211)로부터 수신된 제2 영상 데이터를 입력 받아, 공개 영상에 특화된 제2 특징 벡터열(hp s)로 변환할 수 있다.
그리고, 공용 인코딩 모듈(223)은 제1 획득부(211)로부터 수신된 입력된 제1 영상 데이터 또는 제2 영상 데이터 중 어느 하나를 입력 받아, 공용 특징 벡터열로 변환할 수 있다.
예를 들어, 제1 획득부(211)로부터 제1 영상 데이터가 입력될 경우, 공용 인코딩 모듈(223)은 제1 공용 특징 벡터열(hc t)을 출력할 수 있다.
또한, 제1 획득부(211)로부터 제2 영상 데이터가 입력될 경우, 공용 인코딩 모듈(223)은 제2 공용 특징 벡터열(hc s)을 출력할 수 있다.
모델 학습부(220)는 제1 디코딩 모듈(224) 및 제2 디코딩 모듈(225)을 포함할 수 있다.
제1 디코딩 모듈(224)은 제1 인코딩 모듈(221)로부터 출력된 제1 특징 벡터열 및 공용 인코딩 모듈(223)로부터 출력된 제1 공용 특징 벡터열(hc t)을 결합한 제1 영상 특징 벡터열을 입력 받을 수 있다. 이후, 제1 디코딩 모듈(224)은 제1 영상 데이터와 동일한 크기의 영상으로 복원된 제1 복원 영상을 출력할 수 있다.
또한, 제2 디코딩 모듈(225)은 제2 인코딩 모듈(222)로부터 출력된 제2 특징 벡터열(hp s) 및 공용 인코딩 모듈(223)로부터 출력된 제2 공용 특징 벡터열(hc s)을 결합한 제2 영상 특징 벡터열을 입력 받을 수 있다. 이후, 제2 디코딩 모듈(225)은 제2 영상 데이터와 동일한 크기의 영상으로 복원된 제2 복원 영상을 출력할 수 있다.
모델 학습부(220)는 신경망 모델을 이용한 영상 분류를 수행하여, 제1 예측 라벨, 제2 예측 라벨 및 도메인 예측 라벨을 생성할 수 있다.
영상 분류를 수행하는 모델 학습부(220)에 대해 보다 구체적으로 설명하면, 모델 학습부(220)는 제1 분류 모듈(226), 제2 분류 모듈(227) 및 도메인 감별 모듈(228)을 포함할 수 있다.
실시예에 따르면, 제1 분류 모듈(226)은 앞서 설명한 제1 디코딩 모듈(224)과 같이, 제1 인코딩 모듈(221)로부터 출력된 제1 특징 벡터열 및 공용 인코딩 모듈(223)로부터 출력된 공용 특징 벡터열을 결합한 제1 영상 특징 벡터열을 입력 받을 수 있다.
이후, 제1 분류 모듈(226)은 입력된 제1 영상 특징 벡터열을 이용하여 제1 영상 데이터의 분류 카테고리를 예측할 수 있다. 다시 말하면, 제1 분류 모듈(226)은 제1 영상 특징 벡터열을 이용하여, 제1 영상 데이터가 속하는 분류 카테고리의 신뢰도 점수를 추정하는 제1 예측 라벨을 출력할 수 있다.
또한, 제2 분류 모듈(227)은 앞서 설명한 제2 디코딩 모듈(225)과 같이, 제2 인코딩 모듈(222)로부터 출력된 제2 특징 벡터열 및 공용 인코딩 모듈(223)로부터 출력된 공용 특징 벡터열을 결합한 제2 영상 특징 벡터열을 입력 받을 수 있다.
이후, 제2 분류 모듈(227)은 입력된 제2 영상 특징 벡터열을 이용하여 제2 영상 데이터의 분류 카테고리를 예측할 수 있다. 다시 말하면, 제2 분류 모듈(227)은 제2 영상 특징 벡터열을 이용하여, 제2 영상 데이터가 속하는 분류 카테고리의 신뢰도 점수를 추정하는 제2 예측 라벨을 출력할 수 있다. 이때, 제1 분류 모듈 및 제2 분류 모듈의 신경망은 동일 구조를 가질 수 있으며, 가중치 파라미터를 서로 공유할 수 있다.
도메인 감별 모듈(228)은 공용 인코딩 모듈(223)로부터 출력된 제1 공용 특징 벡터열 및 제2 공용 특징 벡터열을 입력 받아, 제1 영상 데이터인지 제2 영상 데이터인지의 여부를 추정할 수 있다. 다시 말하면, 도메인 감별 모듈(228)은 예측 도메인 라벨을 출력할 수 있다.
이후, 모델 학습부(220)는 영상 분류 및 영상 복원 수행에 따라 입출력된 적어도 하나의 데이터 쌍의 정보를 바탕으로 손실 함수를 산출할 수 있다.
다시 말하면, 모델 학습부(220)는 제1 특징 벡터열과 제1 공용 특징 벡터열의 유사도와, 제2 특징 벡터열과 제2 공용 특징 벡터열의 유사도, 제1 영상 데이터와 제1 영상 데이터의 입력에 의해 출력된 제1 복원 영상의 오차, 제2 영상 데이터와 제2 영상 데이터의 입력에 의해 출력된 제2 복원 영상의 오차, 제2 영상 데이터의 라벨과 신경망 모델에서 출력된 제2 예측 라벨의 오차 및 도메인 라벨과 신경망 모델에서 출력된 도메인 예측 라벨의 오차를 결합하여, 신경망 모델 학습을 위한 손실 함수를 산출할 수 있다. 손실 함수를 산출하는 모델 학습부(220)에 대해서는 도 4를 참조하여 보다 자세히 설명하겠다.
도 4는 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치 내 신경망 모델의 손실 함수 산출을 설명하기 위한 이미지이다.
도 4를 참조하면, 모델 학습부(220)는 앞서 설명한 바와 같이, 적어도 하나의 손실 함수를 산출할 수 있다. 이후, 모델 학습부(220)는 산출된 적어도 하나의 손실 함수를 이용하여, 산출된 손실 함수가 최소화 되도록 신경망 모델의 학습을 위한 모델 학습부(220) 내 적어도 하나의 구성들의 파라미터 값을 갱신할 수 있다.
실시예에 따르면, 손실 함수는 제1 유사도 손실, 제2 유사도 손실, 제1 복원 손실, 제2 복원 손실, 분류 손실 및 도메인 감면 손실 중 적어도 하나를 포함할 수 있다.
보다 구체적으로 설명하면, 모델 학습부(220)는 제1 특징 벡터열과 제1 공용 특징 벡터열의 유사도에 대한 제1 유사도 손실을 산출하여 제1 영상 데이터에 대해 제1 인코딩 모듈(221) 및 공용 인코딩 모듈(223)이 서로 다른 특징 벡터열을 출력하도록, 제1 인코딩 모듈(221) 및 공용 인코딩 모듈(223)의 파라미터를 갱신할 수 있다. 이때, 제1 특징 벡터열과 제1 공용 벡터열의 벡터간 내적의 합을 벡터의 길이로 정규한 값, 벡터간 코사인 유사도 중 적어도 하나를 이용하여 제1 유사도 손실을 산출할 수 있다.
또한, 모델 학습부(220)는 제2 특징 벡터열과 제2 공용 특징 벡터열의 유사도에 대한 제2 유사도 손실을 산출하여, 제2 영상 데이터에 대해 제2 인코딩 모듈(222) 및 공용 인코딩 모듈(223)이 서로 다른 특징 벡터열을 출력하도록, 제2 인코딩 모듈(222) 및 공용 인코딩 모듈(223)의 파라미터를 갱신할 수 있다. 이 때, 제2 특징 벡터열과 제2 공용 벡터열의 벡터간 내적의 합을 벡터의 길이로 정규한 유사도, 벡터간 코사인 유사도 중 적어도 하나를 이용하여 제2 유사도 손실을 산출할 수 있다.
모델 학습부(220)는 제1 영상 데이터와 제1 영상 데이터의 입력에 의해 출력된 제1 복원 영상의 오차로부터 제1 복원 손실을 산출할 수 있다. 이후, 모델 학습부(220)는 제1 영상 데이터와 최대로 유사한 제1 복원 영상을 출력하도록, 공용 인코딩 모듈(223) 및 제1 디코딩 모듈(224)의 파라미터를 갱신할 수 있다.
또한, 모델 학습부(220)는 제2 영상 데이터와 제2 영상 데이터의 입력에 의해 출력된 제2 복원 영상의 오차로부터 제2 복원 손실을 산출할 수 있다. 이후, 모델 학습부(220)는 제2 영상 데이터와 최대로 유사한 제2 복원 영상을 출력하도록, 공용 인코딩 모듈(223) 및 제2 디코딩 모듈(225)의 파라미터를 갱신할 수 있다.
모델 학습부(220)는 제2 영상 데이터의 라벨과 신경망 모델에서 출력된 제2 예측 라벨의 오차로부터 분류 손실을 산출할 수 있다. 이후, 모델 학습부(220)는 최대한 정밀한 제2 예측 라벨을 출력하도록, 제2 인코딩 모듈(221), 공용 인코딩 모듈(223) 및 제2 분류 모듈(226)의 파라미터를 갱신할 수 있다.
또한, 모델 학습부(220)는 도메인 라벨과 신경망 모델에서 출력된 도메인 예측 라벨의 오차로부터 도메인 감면 손실을 산출할 수 있다. 이후, 모델 학습부(220)는 공용 인코딩 모듈(223)로부터 출력되는 제1 공용 특징 벡터열 및 제2 공용 특징 벡터열을 구분할 수 없도록, 공용 인코딩 모듈(223) 및 도메인 감별 모듈(228)의 파라미터를 갱신할 수 있다.
본 발명의 실시예에 따른 지능형 영상 촬영 장치는 모델 학습부에 의해, 영상 복원 및 영상 분류 시 오차가 보정된 신경망 모델을 제공함으로써, 손실이 최소화된 고정밀 및 고정확한 촬영 영상 데이터의 영상 분석이 가능할 수 있다.
도 5는 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치 내 영상 분석부를 설명하기 위한 이미지이다.
도 2 및 도 5를 참조하면, 영상 분석부(230)는 학습이 완료된 신경망 모델을 적용한 이후, 새롭게 획득하는 적어도 하나의 신규 영상 데이터에 대한 영상을 분석하는 구성일 수 있다.
보다 구체적으로 설명하면, 영상 분석부(230)는 학습이 완료된 신경망 모델의 제1 인코딩 모듈(221) 및 공용 인코딩 모듈(223), 제2 인코딩 모듈(222) 및 제1 분류 모듈(226)을 포함하여 갱신된 신경망 모델을 구성할 수 있다.
이에 따라, 지능형 영상 촬영 장치(1000)는 갱신된 신경망 모델에, 신규 촬영된 제3 영상 데이터를 입력으로 하여, 상기 제3 영상 데이터에 대한 복원 영상 및 예측 라벨을 출력할 수 있다.
다시 도 2를 참조하면, 모델 갱신부(240)는 영상 분석부(230)에 의해 처리된 제3 영상 데이터 및 상기 제3 영상 데이터에 대한 복원 영상을 바탕으로, 영상 복원 오류의 발생 여부를 판단할 수 있다.
실시예에 따라 보다 구체적으로 설명하면, 모델 갱신부(240)는 수신된 제3 영상 데이터 및 제3 영상 데이터에 대한 복원 영상 간의 평균 제곱 오차를 산출하여, 사전 설정된 오차 임계값과 비교할 수 있다.
이후, 상기 평균 제곱 오차 값이 사전 설정된 오차 임계값 대비 클 경우, 모델 갱신부(240)는 영상 복원 오류가 발생한 것으로 판단하여, 후술될 저장 장치(600)에 상기 제3 영상 데이터 및 제3 영상 데이터의 도메인 라벨을 저장할 수 있다.
또한, 모델 갱신부(240)는 프로세서(200)를 통해, 모델 학습부(220)로 신경망 모델의 갱신을 요청할 수 있다. 이에 따라, 모델 학습부(220)는 상기 저장 장치(600)에 저장된 적어도 하나의 제3 영상 데이터와 제3 영상 데이터의 도메인 라벨, 제2 영상 데이터와 제2 영상 데이터의 라벨 및 제2 영상 데이터의 도메인 라벨을 바탕으로 신경망 모델을 갱신할 수 있다.
또한, 모델 갱신부(240)는 영상 복원 오류의 발생 빈도 및 오차의 증가 추이 데이터를 바탕으로, 영상 복원 오류의 발생 여부를 판단할 수 있다.
실시예에 따라 보다 구체적으로 설명하면, 모델 갱신부(240)는 영상 복원 오류의 발생 빈도 및 오차의 증가 추이가 사전 설정된 임계값을 초과할 경우 영상 복원 오류가 발생한 것으로 판단할 수 있다. 이에 따라, 모델 갱신부(240)는 프로세서(200)를 통해 모델 학습부(220)에 재학습을 요청하여, 모델 학습부(220)에 의해 신경망 모델이 갱신될 수 있다.
다시 도 1을 참조하면, 메모리(100) 및 저장 장치(600) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(100)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중에서 적어도 하나로 구성될 수 있다.
메모리(100)는 앞서 설명한 바와 같이, 프로세서(200)를 실행시키기 위한 적어도 하나의 명령을 포함할 수 있다. 실시예에 따르면, 메모리(100) 내 적어도 하나의 명령은, 라벨이 없는 적어도 하나의 제1 영상 데이터 및 라벨이 있는 적어도 하나의 제2 영상 데이터를 바탕으로 신경망 모델을 학습하도록 하는 명령, 상기 신경망 모델을 적용하여 신규 획득한 제3 영상 데이터에 대한 영상 분석을 수행하도록 하는 명령 및 상기 영상 분석 결과에 따라 상기 신경망 모델을 갱신하도록 하는 명령을 포함할 수 있다.
이상, 본 발명의 일 실시예에 따른 지능형 영상 촬영 장치를 설명하였다. 이하에서는 상기 지능형 영상 촬영 장치 내 프로세서 동작에 의한 영상 분석 방법을 설명하겠다.
도 6은 본 발명의 다른 실시예에 따른 지능형 영상 촬영 장치를 이용한 영상 분석 방법의 순서도이다.
도 6을 참조하면, 관제 대상 현장에 설치된 지능형 영상 촬영 장치(1000)는 신경망 모델을 학습할 수 있다(S1000). 다시 말하면, 지능형 영상 촬영 장치(1000) 내 프로세서(200)는 모델 학습부(220)를 실행하여 신경망 모델을 학습할 수 있다.
신경망 모델을 학습하는 단계를 보다 구체적으로 설명하면, 프로세서(200)는 라벨이 없는 제1 영상 데이터, 라벨을 가진 공개된 제2 영상 데이터 및 도메인 라벨 중 적어도 하나를 획득할 수 있다(S1100). 실시예에 따르면, 프로세서(200)는 관제 대상 현장에 설치된 적어도 하나의 타 지능형 영상 촬영 장치로부터 제1 영상 데이터를 획득할 수 있다.
이후, 프로세서(200)는 획득한 상기 데이터들을 입력으로 하는 영상 복원을 수행하여 신경망 모델을 학습할 수 있다(S1300). 이에 따라, 프로세서(200)는 제1 복원 영상 및 제2 복원 영상을 출력할 수 있다. 영상 복원에 의해 제1 및 제2 복원 영상을 생성하는 방법은 도 2의 모델 학습부(220)의 설명에 상세히 기술하였으므로 여기서는 생략토록 하겠다.
또한, 프로세서(200)는 획득한 상기 데이터들을 입력으로 하는 영상 분류를 수행하여 신경망 모델을 학습할 수 있다(S1500). 이에 따라, 프로세서(200)는 제1 예측 라벨, 제2 예측 라벨 및 도메인 예측 라벨을 출력할 수 있다. 영상 분류에 의해 제1 및 제2 예측 라벨과 도메인 예측 라벨을 출력하는 방법 또한 도 2의 모델 학습부(220)의 설명에 상세히 기술하였으므로 여기서는 생략토록 하겠다.
프로세서(200)는 상기 영상 복원을 수행하는 단계(S1300) 및 상기 영상 분류 작업을 수행하는 단계(S1500)를 동시에 수행할 수 있다. 그러나 기술된 바에 국한되지 않고 상기 S1100 단계 및 S1500 단계를 순차적으로 수행할 수도 있다.
이후, 프로세서(200)는 학습이 완료된 신경망 모델을 적용하여, 관제 대상 현장을 촬영한 제3 영상 데이터를 신규 획득할 수 있다(S2000).
프로세서(200)는 신규 획득된 제3 영상 데이터를 이용하여 영상 분석을 수행할 수 있다(S3000). 보다 구체적으로 설명하면, 프로세서(200)는 영상 분석부(230)을 실행하여 상기 제3 영상 데이터를 학습된 신경망 모델에 입력함으로써, 출력값을 생성하여 영상 분석을 수행할 수 있다.
이후, 프로세서(200)는 영상 분석 결과를 바탕으로, 학습된 신경망 모델을 갱신할 수 있다(S4000). 학습된 신경망 모델을 갱신하는 단계는 하기 도 7을 참조하여 보다 구체적으로 설명하겠다.
도 7은 본 발명의 다른 실시예에 따른 지능형 영상 촬영 장치를 이용한 영상 분석 방법 중 신경망 모델의 갱신하는 단계를 설명하기 위한 순서도이다.
도 7을 참조하면, 프로세서(200)는 신규 입력된 제3 영상 데이터와 영상 복원 수행에 의해 출력된 제3 영상 데이터의 복원 영상을 바탕으로, 영상 복원 오류의 발생 여부를 판단할 수 있다.
실시예에 따르면, 프로세서(200)는 제3 영상 데이터 및 제3 영상 데이터의 복원 영상 간의 평균 제곱 오차를 산출할 수 있다(S4100).
이후, 프로세서(200)는 산출된 평균 제곱 오차를 사전 설정된 제1 임계값과 비교할 수 있다(S4300).
이때, 산출된 평균 제곱 오차가 사전 설정된 제1 임계값 대비 클 경우(S4310), 프로세서(200)는 상기 제3 영상 데이터를 저장 장치(600)에 저장할 수 있다(S4350).
또한, 프로세서(200)는 영상 복원 오류의 발생 누적 횟수 또는 오차의 증가 추이가 사전 설정된 제2 임계값과 비교할 수 있다(S4500).
영상 복원 오류의 발생 누적 횟수 또는 평균 제곱 오차의 증가 추이가 사전 설정된 제2 임계값 대비 클 경우, 프로세서(200)는 신경망 모델을 갱신할 수 있다(S4550). 이때, 프로세서(200)는 상기 저장 장치(600)에 저장된 적어도 하나의 제3 영상 데이터를 이용하여 신경망 모델을 갱신할 수 있다.
다시 도 6을 참조하면, 프로세서(200)는 상기 영상 분석 수행 단계(S3000)에서의 결과값 및 신규 촬영된 제3 영상 데이터를 출력 인터페이스 장치(500)로 전송하여 디스플레이 할 수 있다(S5000).
이후, 프로세서(200)는 다시 S2000 단계로 돌아가, 갱신된 신경망 모델을 이용하여, 신규 획득된 제3 영상 데이터에 대한 영상 분석(S3000)을 지속적으로 수행할 수 있다. 다시 말하면, 프로세서(200)는 갱신된 신경망 모델을 적용하여 S2000 내지 S5000 단계를 반복적으로 수행할 수 있다.
이상, 본 발명의 실시예들에 따른 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치를 설명하였다.
본 발명의 실시예들에 따른 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치는 관재 대상 현장에 설치된 타 지능형 영상 촬영 장치로부터 수신된 적어도 하나의 영상 데이터를 이용하여 신경망 모델의 영상 복원 및 영상 분류를 수행하고, 영상 복원 및 영상 분류에 의해 출력된 출력값에 의해 복원 오차를 산출하여, 오차가 보정된 고정밀 및 고정확한 신경망 모델을 학습할 수 있으며, 학습된 신경망 모델을 지속적으로 갱신하여 신규 촬영된 영상 데이터의 정보를 반영함으로써, 고정확 및 고성능의 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치를 제공할 수 있다.
본 발명의 실시예들에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.
또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.
실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.
이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
1000: 지능형 영상 촬영 장치
100: 메모리
200: 프로세서 210: 영상 획득부
220: 모델 학습부 221: 제1 인코딩 모듈
222: 제2 인코딩 모듈 223: 공용 인코딩 모듈
224: 제1 디코딩 모듈 225: 제2 디코딩 모듈
226: 제1 분류 모듈 227: 제2 분류 모듈
228: 도메인 감별 모듈 230: 영상 분석부
240: 모델 갱신부 300: 송수신 장치
400: 입력 인터페이스 장치 500: 출력 인터페이스 장치
600: 저장 장치 700: 버스(BUS)
200: 프로세서 210: 영상 획득부
220: 모델 학습부 221: 제1 인코딩 모듈
222: 제2 인코딩 모듈 223: 공용 인코딩 모듈
224: 제1 디코딩 모듈 225: 제2 디코딩 모듈
226: 제1 분류 모듈 227: 제2 분류 모듈
228: 도메인 감별 모듈 230: 영상 분석부
240: 모델 갱신부 300: 송수신 장치
400: 입력 인터페이스 장치 500: 출력 인터페이스 장치
600: 저장 장치 700: 버스(BUS)
Claims (20)
- 라벨이 없는 적어도 하나의 제1 영상 데이터 및 라벨이 있는 적어도 하나의 제2 영상 데이터를 신경망 모델에 입력하여, 영상 환경에 특화된 복원 영상을 획득하는 단계;
상기 제1 영상 데이터, 상기 제2 영상 데이터, 상기 제2 영상 데이터의 라벨 및 상기 제1 영상 데이터 또는 상기 제2 영상 데이터 중 어느 카테고리에 속하는지에 대한 정보를 포함하는 도메인 라벨을 상기 신경망 모델에 입력하여, 상기 제2 영상 데이터 및 상기 도메인 라벨의 예측 라벨을 획득함으로써 상기 예측 라벨의 신뢰도를 추정하는 단계;
상기 제1 영상 데이터, 상기 제2 영상 데이터, 상기 제2 영상 데이터의 예측 라벨 및 상기 도메인 라벨의 예측 라벨을 이용하여 손실 함수를 산출하는 단계; 및
상기 손실 함수가 최소화되도록 신경망 모델의 파라미터를 갱신하는 단계를 포함하는, 촬영 영상 데이터의 분석을 위한 모델 학습 방법. - 제1 항에 있어서,
상기 제1 영상 데이터는 현장 영상 데이터이며, 상기 제2 영상 데이터는 공개된 영상 데이터인, 촬영 영상 데이터의 분석을 위한 모델 학습 방법. - 제1 항에 있어서,
상기 제1 영상 데이터는
관제 대상 현장에 설치된 적어도 하나의 지능형 영상 촬영 장치로부터 수신되는, 촬영 영상 데이터의 분석을 위한 모델 학습 방법. - 제1 항에 있어서,
상기 복원 영상을 획득하는 단계는,
상기 제1 영상 데이터 및 상기 제2 영상 데이터들을 특징 벡터열들로 변환하는 단계; 및
상기 변환된 특징 벡터열들을 제1 복원 영상 및 제2 복원 영상으로 변환하는 단계를 포함하는, 촬영 영상 데이터의 분석을 위한 모델 학습 방법. - 제4 항에 있어서,
상기 변환된 특징 벡터열들을 제1 복원 영상 및 제2 복원 영상으로 변환하는 단계는,
제1 인코딩 모듈을 이용하여, 상기 제1 영상 데이터를 제1 특징 벡터열로 변환하는 단계;
제2 인코딩 모듈을 이용하여, 상기 제2 영상 데이터를 제2 특징 벡터열로 변환하는 단계; 및
공용 인코딩 모듈을 이용하여, 상기 제1 영상 데이터 및 상기 제2 영상 데이터를 각각 제1 공용 특징 벡터열 및 제2 공용 특징 벡터열로 변환하는 단계를 포함하는, 촬영 영상 데이터의 분석을 위한 모델 학습 방법. - 제5 항에 있어서,
상기 변환된 특징 벡터열들을 제1 복원 영상 및 제2 복원 영상으로 변환하는 단계는,
제1 디코딩 모듈에 의해 상기 제1 특징 벡터열 및 상기 제1 공용 특징 벡터열을 결합하여 상기 제1 복원 영상을 획득하는 단계; 및
제2 디코딩 모듈에 의해 상기 제2 특징 벡터열 및 상기 제2 공용 특징 벡터열을 결합하여 상기 제2 복원 영상을 획득하는 단계를 포함하는, 촬영 영상 데이터의 분석을 위한 모델 학습 방법. - 제5 항에 있어서,
상기 제1 영상 데이터, 상기 제2 영상 데이터 및 상기 도메인 라벨의 예측 라벨을 획득함으로써 상기 예측 라벨의 신뢰도를 추정하는 단계는,
제1 영상 특징 벡터열을 이용하여 상기 제1 영상 데이터가 속하는 제1 예측 라벨의 신뢰도를 추정하는 단계;
제2 영상 특징 벡터열을 이용하여 상기 제2 영상 데이터가 속하는 제2 예측 라벨의 신뢰도를 추정하는 단계; 및
상기 제1 공용 특징 벡터열 및 상기 제2 공용 특징 벡터열을 이용하여 대상 영상이 상기 제1 영상 데이터인지 또는 상기 제2 영상 데이터인지의 여부를 추정한 예측 도메인 라벨을 획득하는 단계를 포함하는, 촬영 영상 데이터의 분석을 위한 모델 학습 방법. - 제7 항에 있어서,
상기 제1 영상 특징 벡터열은 상기 제1 특징 벡터열 및 상기 제1 공용 특징 벡터열을 결합하여 생성되고,
상기 제2 영상 특징 벡터열은 상기 제2 특징 벡터열 및 상기 제2 공용 특징 벡터열을 결합하여 생성되는, 촬영 영상 데이터의 분석을 위한 모델 학습 방법. - 제6 항에 있어서,
상기 손실 함수를 산출하는 단계는,
상기 제1 특징 벡터열과 상기 제1 공용 특징 벡터열 간의 유사도를 이용하여 제1 유사도 손실을 산출하는 단계;
상기 제2 특징 벡터열과 상기 제2 공용 특징 벡터열 간의 유사도를 이용하여 제2 유사도 손실을 산출하는 단계;
상기 제1 영상 데이터와 상기 제1 복원 영상 간의 오차를 이용하여 제1 복원 손실을 산출하는 단계;
상기 제2 영상 데이터와 상기 제2 복원 영상 간의 오차를 이용하여 제2 복원 손실을 산출하는 단계;
상기 제2 영상 데이터의 라벨과 제2 예측 라벨 간의 오차로부터 분류 손실을 산출하는 단계;
상기 도메인 라벨과 예측 도메인 라벨의 오차를 이용하여 도메인 감별 손실을 산출하는 단계; 및
상기 제1 유사도 손실과 상기 제2 유사도 손실, 상기 제1 복원 손실과 상기 제2 복원 손실, 상기 분류 손실 및 상기 도메인 감별 손실 중 적어도 하나를 이용하여 상기 손실 함수를 산출하는 단계를 포함하는, 촬영 영상 데이터의 분석을 위한 모델 학습 방법. - 메모리(memory); 및
상기 메모리에 저장된 적어도 하나의 명령을 실행하는 프로세서(processor)를 포함하되,
상기 적어도 하나의 명령은,
라벨이 없는 적어도 하나의 제1 영상 데이터 및 라벨이 있는 적어도 하나의 제2 영상 데이터를 신경망 모델에 입력하여, 영상 환경에 특화된 복원 영상을 획득하도록 하는 명령,
상기 제1 영상 데이터, 상기 제2 영상 데이터, 상기 제2 영상 데이터의 라벨 및 상기 제1 영상 데이터 또는 상기 제2 영상 데이터 중 어느 카테고리에 속하는지에 대한 정보를 포함하는 도메인 라벨을 상기 신경망 모델에 입력하여, 상기 제2 영상 데이터 및 상기 도메인 라벨의 예측 라벨을 획득함으로써 상기 예측 라벨의 신뢰도를 추정하도록 하는 명령,
상기 제1 영상 데이터, 상기 제2 영상 데이터, 상기 제2 영상 데이터의 예측 라벨 및 상기 도메인 라벨의 예측 라벨을 이용하여 손실 함수를 산출하도록 하는 명령, 및
상기 손실 함수가 최소화되도록 신경망 모델의 파라미터를 갱신하도록 하는 명령을 포함하는, 촬영 영상 데이터의 분석을 위한 모델 학습 장치. - 제10 항에 있어서,
상기 제1 영상 데이터는 현장 영상 데이터이며, 상기 제2 영상 데이터는 공개된 영상 데이터인, 촬영 영상 데이터의 분석을 위한 모델 학습 장치. - 제10 항에 있어서,
상기 제1 영상 데이터는
관제 대상 현장에 설치된 적어도 하나의 지능형 영상 촬영 장치로부터 수신되는, 촬영 영상 데이터의 분석을 위한 모델 학습 장치. - 제10 항에 있어서,
상기 복원 영상을 획득하도록 하는 명령은,
상기 제1 영상 데이터 및 상기 제2 영상 데이터들을 특징 벡터열들로 변환하도록 하는 명령, 및
상기 변환된 특징 벡터열들을 제1 복원 영상 및 제2 복원 영상으로 변환하도록 하는 명령을 포함하는, 촬영 영상 데이터의 분석을 위한 모델 학습 장치. - 제13 항에 있어서,
상기 변환된 특징 벡터열들을 제1 복원 영상 및 제2 복원 영상으로 변환하도록 하는 명령은,
제1 인코딩 모듈을 이용하여, 상기 제1 영상 데이터를 제1 특징 벡터열로 변환하도록 하는 명령,
제2 인코딩 모듈을 이용하여, 상기 제2 영상 데이터를 제2 특징 벡터열로 변환하도록 하는 명령, 및
공용 인코딩 모듈을 이용하여, 상기 제1 영상 데이터 및 상기 제2 영상 데이터를 각각 제1 공용 특징 벡터열 및 제2 공용 특징 벡터열로 변환하도록 하는 명령을 포함하는, 촬영 영상 데이터의 분석을 위한 모델 학습 장치. - 제14 항에 있어서,
상기 변환된 특징 벡터열들을 제1 복원 영상 및 제2 복원 영상으로 변환하도록 하는 명령은,
제1 디코딩 모듈에 의해 상기 제1 특징 벡터열 및 상기 제1 공용 특징 벡터열을 결합하여 상기 제1 복원 영상을 획득하도록 하는 명령, 및
제2 디코딩 모듈에 의해 상기 제2 특징 벡터열 및 상기 제2 공용 특징 벡터열을 결합하여 상기 제2 복원 영상을 획득하도록 하는 명령을 포함하는, 촬영 영상 데이터의 분석을 위한 모델 학습 장치. - 제14 항에 있어서,
상기 제1 영상 데이터, 상기 제2 영상 데이터 및 상기 도메인 라벨의 예측 라벨을 획득함으로써 상기 예측 라벨의 신뢰도를 추정하도록 하는 명령은,
제1 영상 특징 벡터열을 이용하여 상기 제1 영상 데이터가 속하는 제1 예측 라벨의 신뢰도를 추정하도록 하는 명령,
제2 영상 특징 벡터열을 이용하여 상기 제2 영상 데이터가 속하는 제2 예측 라벨의 신뢰도를 추정하도록 하는 명령, 및
상기 제1 공용 특징 벡터열 및 상기 제2 공용 특징 벡터열을 이용하여 대상 영상이 상기 제1 영상 데이터인지 또는 상기 제2 영상 데이터인지의 여부를 추정한 예측 도메인 라벨을 획득하도록 하는 명령을 포함하는, 촬영 영상 데이터의 분석을 위한 모델 학습 장치. - 제16 항에 있어서,
상기 제1 영상 특징 벡터열은 상기 제1 특징 벡터열 및 상기 제1 공용 특징 벡터열을 결합하여 생성되고,
상기 제2 영상 특징 벡터열은 상기 제2 특징 벡터열 및 상기 제2 공용 특징 벡터열을 결합하여 생성되는, 촬영 영상 데이터의 분석을 위한 모델 학습 장치. - 제15 항에 있어서,
상기 손실 함수를 산출하도록 하는 명령은,
상기 제1 특징 벡터열과 상기 제1 공용 특징 벡터열 간의 유사도를 이용하여 제1 유사도 손실을 산출하도록 하는 명령,
상기 제2 특징 벡터열과 상기 제2 공용 특징 벡터열 간의 유사도를 이용하여 제2 유사도 손실을 산출하도록 하는 명령,
상기 제1 영상 데이터와 상기 제1 복원 영상 간의 오차를 이용하여 제1 복원 손실을 산출하도록 하는 명령,
상기 제2 영상 데이터와 상기 제2 복원 영상 간의 오차를 이용하여 제2 복원 손실을 산출하도록 하는 명령,
상기 제2 영상 데이터의 라벨과 제2 예측 라벨 간의 오차로부터 분류 손실을 산출하도록 하는 명령,
상기 도메인 라벨과 예측 도메인 라벨의 오차를 이용하여 도메인 감별 손실을 산출하도록 하는 명령, 및
상기 제1 유사도 손실과 상기 제2 유사도 손실, 상기 제1 복원 손실과 상기 제2 복원 손실, 상기 분류 손실 및 상기 도메인 감별 손실 중 적어도 하나를 결합하여 상기 손실 함수를 산출하도록 하는 명령을 포함하는, 촬영 영상 데이터의 분석을 위한 모델 학습 장치. - 메모리(memory); 및
상기 메모리에 저장된 적어도 하나의 명령을 실행하는 프로세서(processor)를 포함하되,
상기 적어도 하나의 명령은,
라벨이 없는 적어도 하나의 제1 영상 데이터 및 라벨이 있는 적어도 하나의 제2 영상 데이터를 바탕으로 신경망 모델을 학습하도록 하는 명령,
상기 신경망 모델을 적용하여, 신규 획득한 제3 영상 데이터에 대한 영상 분석을 수행하도록 하는 명령, 및
상기 영상 분석 결과에 따라 상기 신경망 모델을 갱신하도록 하는 명령을 포함하고,
상기 신경망 모델을 학습하도록 하는 명령은,
상기 제1 영상 데이터 및 상기 제2 영상 데이터를 신경망 모델에 입력하여, 영상 환경에 특화된 복원 영상을 획득하도록 하는 명령,
상기 제1 영상 데이터, 상기 제2 영상 데이터, 상기 제2 영상 데이터의 라벨 및 상기 제1 영상 데이터 또는 상기 제2 영상 데이터 중 어느 카테고리에 속하는지에 대한 정보를 포함하는 도메인 라벨을 상기 신경망 모델에 입력하여, 상기 제1 영상 데이터, 상기 제2 영상 데이터 및 상기 도메인 라벨의 예측 라벨을 획득함으로써 상기 예측 라벨의 신뢰도를 추정하도록 하는 명령,
상기 제1 영상 데이터, 상기 제2 영상 데이터, 상기 제2 영상 데이터의 예측 라벨 및 상기 도메인 라벨의 예측 라벨을 이용하여 손실 함수를 산출하도록 하는 명령, 및
상기 손실 함수가 최소화되도록 신경망 모델의 파라미터를 갱신하도록 하는 명령을 포함하는, 지능형 영상 촬영 장치. - 제19 항에 있어서,
상기 신경망 모델을 갱신하도록 하는 명령은,
상기 제3 영상 데이터 및 상기 제3 영상 데이터의 복원 영상 간의 평균 제곱 오차를 산출하도록 하는 명령,
상기 평균 제곱 오차가 사전 설정된 제1 임계값 대비 큰 경우, 상기 제3 영상을 저장하도록 하는 명령,
상기 제3 영상 데이터 및 상기 제3 영상 데이터의 복원 영상 간의 영상 복원 오류의 발생 누적 횟수를 산출하도록 하는 명령, 및
상기 영상 복원 오류의 발생 누적 횟수 또는 상기 평균 제곱 오차의 증가 추이 중 적어도 하나가 사전 설정된 제2 임계값 대비 큰 경우, 상기 신경망 모델을 갱신하도록 하는 명령을 포함하는, 지능형 영상 촬영 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200047932A KR102703808B1 (ko) | 2020-04-21 | 2020-04-21 | 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치 |
US17/235,537 US11682213B2 (en) | 2020-04-21 | 2021-04-20 | Method and device for training image analysis neural network model and intelligent image capturing apparatus employing the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200047932A KR102703808B1 (ko) | 2020-04-21 | 2020-04-21 | 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210129874A true KR20210129874A (ko) | 2021-10-29 |
KR102703808B1 KR102703808B1 (ko) | 2024-09-06 |
Family
ID=78082049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200047932A KR102703808B1 (ko) | 2020-04-21 | 2020-04-21 | 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11682213B2 (ko) |
KR (1) | KR102703808B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160096460A (ko) * | 2015-02-05 | 2016-08-16 | 삼성전자주식회사 | 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법 |
KR20190029083A (ko) * | 2017-09-11 | 2019-03-20 | 삼성전자주식회사 | 신경망 학습 방법 및 이를 적용한 장치 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102318772B1 (ko) | 2016-07-28 | 2021-10-28 | 구글 엘엘씨 | 도메인 분리 뉴럴 네트워크들 |
KR102645202B1 (ko) | 2017-01-03 | 2024-03-07 | 한국전자통신연구원 | 기계 학습 방법 및 장치 |
DE102017214545A1 (de) * | 2017-08-21 | 2019-02-21 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren und Vorrichtung zur Ermittlung einer Wahrscheinlichkeit, mit der sich ein Objekt in einem Sichtfeld eines Fahrers eines Fahrzeugs befindet |
KR101982231B1 (ko) | 2017-08-31 | 2019-05-24 | 경북대학교 산학협력단 | 객체 인식 장치 및 그 제어 방법 |
US11681912B2 (en) | 2017-11-16 | 2023-06-20 | Samsung Electronics Co., Ltd. | Neural network training method and device |
US20190392591A1 (en) | 2018-06-25 | 2019-12-26 | Electronics And Telecommunications Research Institute | Apparatus and method for detecting moving object using optical flow prediction |
US11676032B2 (en) * | 2020-02-28 | 2023-06-13 | International Business Machines Corporation | Sim-to-real learning of 2D multiple sound source localization |
KR20210149530A (ko) * | 2020-06-02 | 2021-12-09 | 삼성에스디에스 주식회사 | 이미지 분류 모델 학습 방법 및 이를 수행하기 위한 장치 |
CN111723780B (zh) * | 2020-07-22 | 2023-04-18 | 浙江大学 | 基于高分辨率遥感图像的跨域数据的定向迁移方法及系统 |
-
2020
- 2020-04-21 KR KR1020200047932A patent/KR102703808B1/ko active IP Right Grant
-
2021
- 2021-04-20 US US17/235,537 patent/US11682213B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160096460A (ko) * | 2015-02-05 | 2016-08-16 | 삼성전자주식회사 | 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법 |
KR20190029083A (ko) * | 2017-09-11 | 2019-03-20 | 삼성전자주식회사 | 신경망 학습 방법 및 이를 적용한 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR102703808B1 (ko) | 2024-09-06 |
US11682213B2 (en) | 2023-06-20 |
US20210326654A1 (en) | 2021-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11222239B2 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium | |
CN109145781B (zh) | 用于处理图像的方法和装置 | |
US8345962B2 (en) | Transfer learning methods and systems for feed-forward visual recognition systems | |
US9317780B2 (en) | Detecting multi-object anomalies utilizing a low rank sparsity model | |
KR20230104738A (ko) | 비디오 행동 인식을 위한 시간적 병목 어텐션 아키텍처 | |
EP3531343A2 (en) | Method and apparatus for human behavior recognition, and storage medium | |
WO2020113468A1 (en) | Method and apparatus for grounding a target video clip in a video | |
CN111598038A (zh) | 脸部特征点检测方法、装置、设备及存储介质 | |
US20230386243A1 (en) | Information processing apparatus, control method, and non-transitory storage medium | |
CN115471216B (zh) | 智慧实验室管理平台的数据管理方法 | |
CN111008621A (zh) | 对象追踪方法、装置、计算机设备和存储介质 | |
CN117541964A (zh) | 云端视频处理系统及其方法 | |
CN115424318A (zh) | 一种图像识别方法及设备 | |
US11748977B2 (en) | Image processing system, image processing device, image processing method, and computer-readable medium | |
US20230401737A1 (en) | Method for training depth estimation model, training apparatus, and electronic device applying the method | |
WO2022044297A1 (ja) | 情報処理方法、情報処理装置及び情報処理プログラム | |
KR20200023696A (ko) | 식물 이미지 분류 방법 및 장치 | |
KR20210129874A (ko) | 촬영 영상 데이터의 분석을 위한 모델 학습 장치 및 방법, 그리고 이를 적용한 지능형 영상 촬영 장치 | |
US20240013357A1 (en) | Recognition system, recognition method, program, learning method, trained model, distillation model and training data set generation method | |
JP2023553630A (ja) | キーポイントベースの行動位置特定 | |
CN115115991A (zh) | 视频特征提取方法、装置、设备及存储介质 | |
US11430488B2 (en) | System and method for generating a compression invariant motion timeline | |
WO2023041181A1 (en) | Electronic device and method for determining human height using neural networks | |
CN115862054A (zh) | 图像数据处理方法、装置、设备以及介质 | |
KR102678174B1 (ko) | 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법, 이를 수행하는 장치 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |