KR102185855B1 - 데이터 세트에 정의되지 않은 특성 정보를 자동으로 생성하는 제로샷 인식 장치 및 방법 - Google Patents

데이터 세트에 정의되지 않은 특성 정보를 자동으로 생성하는 제로샷 인식 장치 및 방법 Download PDF

Info

Publication number
KR102185855B1
KR102185855B1 KR1020190048205A KR20190048205A KR102185855B1 KR 102185855 B1 KR102185855 B1 KR 102185855B1 KR 1020190048205 A KR1020190048205 A KR 1020190048205A KR 20190048205 A KR20190048205 A KR 20190048205A KR 102185855 B1 KR102185855 B1 KR 102185855B1
Authority
KR
South Korea
Prior art keywords
pseudo
loss function
characteristic information
class
zero
Prior art date
Application number
KR1020190048205A
Other languages
English (en)
Other versions
KR20200130759A (ko
Inventor
변혜란
김호성
이제욱
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020190048205A priority Critical patent/KR102185855B1/ko
Publication of KR20200130759A publication Critical patent/KR20200130759A/ko
Application granted granted Critical
Publication of KR102185855B1 publication Critical patent/KR102185855B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06K9/46
    • G06K9/6201
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Abstract

본 실시예들은 처음 보는 클래스의 특징 정보를 생성하고, 특징 정보로부터 사용자에 의해 정의되지 않은 처음 보는 클래스의 슈도 특성 정보를 생성하여, 처음 보는 클래스의 이미지 또는 비디오에 대하여 서로 다른 클래스를 인식할 수 있는 제로샷 인식 방법 및 장치를 제공한다.

Description

데이터 세트에 정의되지 않은 특성 정보를 자동으로 생성하는 제로샷 인식 장치 및 방법 {Zero Shot Recognition Apparatus for Automatically Generating Undefined Attribute Information in Data Set and Method Thereof}
본 실시예가 속하는 기술 분야는 제로샷 인식 장치 및 방법에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
제로샷 학습(Zero Shot Learning)은 학습 데이터에 포함되지 않은 처음 보는(Unseen) 클래스를 인식할 수 있는 기술이다. 제로샷 학습 기술의 원리는 학습에 사용된(Seen) 클래스의 데이터로부터 해당 클래스와 관련된 특성 정보(Attribute)를 올바르게 추론할 수 있도록 모델을 학습하면, 처음 보는 클래스의 데이터에 대해서도 해당 클래스의 특성 정보를 추론하여 처음 보는 클래스를 인식할 수 있다.
사용자가 정의한 특성 정보는 제로샷 학습에서 서로 다른 카테고리를 구분함에 있어서 필수 요소 중 하나이다. 특성 정보를 다양한 카테고리에 대해 새롭게 정의하는 것은 사용자의 노동력과 전문적 지식이 필요하고 많은 시간과 비용이 필요하므로, 사용자가 특성 정보를 전부 설정하는 것은 현실적으로 불가능하다.
기존의 제로샷 학습 모델은 사용자에 의해 정의되어 있지 않은 개념을 전혀 이해를 할 수 없는 문제가 있다. 예를 들어, 말과 얼룩말을 구분하기 위해서 필요한 "줄무늬"라는 특성 정보가 사용자에 의해 정의되어 있지 않은 경우, 기존의 제로샷 학습 모델은 말과 얼룩말을 구분하지 못하는 실정이다.
논문 Y. Xian. et. al., Feature generating networks for zero-shot learning, CVPR (2018.06.19.) 논문 R. Felix et. al., Multi-modal cycle-consistent generalized zero-shot learning, ECCV (2018.09.08.)
본 발명의 실시예들은 제로샷 데이터 학습 과정에서 필요한 특성 정보를 사용자에 의하지 않고 자동으로 생성하는 모델로서, 적대적 생성 신경망을 이용하여 사용자에 의해 정의되지 않은 처음 보는 클래스의 슈도 특성 정보를 생성하여, 처음 보는 클래스의 이미지 또는 비디오에 대하여 서로 다른 클래스를 인식하는 데 주된 목적이 있다.
본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.
본 실시예의 일 측면에 의하면, 컴퓨팅 디바이스에 의한 제로샷 인식 방법에 있어서, 특징 생성 모델을 이용하여 처음 보는 클래스(Unseen Class)의 특징 정보를 생성하는 단계, 상기 처음 보는 클래스의 특징 정보를 이용하여 슈도 특성 생성 모델에서 정의된 손실 함수를 기반으로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보를 생성하는 단계, 및 상기 슈도 특성 정보를 제로샷 학습 모델에 전송하는 단계를 포함하는 제로샷 인식 방법을 제공한다.
본 실시예의 다른 측면에 의하면, 하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 제로샷 인식 장치에 있어서, 상기 프로세서는 특징 생성 모델을 이용하여 처음 보는 클래스(Unseen Class)의 특징 정보를 생성하고, 상기 프로세서는 상기 처음 보는 클래스의 특징 정보를 이용하여 슈도 특성 생성 모델에서 정의된 손실 함수를 기반으로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보를 생성하고, 상기 프로세서는 상기 슈도 특성 정보를 제로샷 학습 모델에 전송하는 것을 특징으로 하는 제로샷 인식 장치를 제공한다.
이상에서 설명한 바와 같이 본 발명의 실시예들에 의하면, 적대적 생성 신경망을 이용하여 사용자에 의해 정의되지 않은 처음 보는 클래스의 슈도 특성 정보를 생성하여, 제로샷 데이터 학습 과정에서 필요한 특성 정보를 사용자에 의하지 않고 자동으로 생성할 수 있고, 처음 보는 클래스의 이미지 또는 비디오에 대하여 서로 다른 클래스를 인식할 수 있는 효과가 있다.
여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급된다.
도 1은 기존의 제로샷 학습 모델을 예시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 제로샷 인식 장치를 예시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 제로샷 인식 장치의 특성 정보 생성 모델을 예시한 블록도이다.
도 4는 본 발명의 다른 실시예에 따른 제로샷 인식 방법을 예시한 흐름도이다.
도 5는 본 발명의 실시예들에 따른 시뮬레이션 결과를 예시한 도면이다.
이하, 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하고, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다.
기존의 딥러닝이 학습 데이터로 학습하지 않은 새로운 레이블을 인식할 수 없는 문제를 해결하기 위해 개발된 제로샷 학습은 다른 형식의 데이터를 이용하여 새로운 데이터를 인식할 수 있으나, 기존의 제로샷 학습 역시 특성 정보가 정의되지 않으면 새로운 클래스를 인식할 수 없는 문제가 있다.
기존의 제로샷 학습은 특성 정보가 정의된 데이터 세트에서만 학습이 가능하다. 하나의 카테고리로 학습된 모델은 다른 카테고리에 사용할 수 없는 한계를 갖는다. 예를 들어, 새 종류들로 학습된 제로샷 모델은 꽃 종류들의 데이터 세트에 사용할 수 없다. 정의된 특성 정보의 체계가 다르고, 서로 다른 카테고리를 인식할 수 있는 제로샷 학습 기술이 없기 때문이다.
이를 해결하기 위하여 본 실시예들은 데이터 세트에 미리 정의된 특성 정보를 요구하지 않고, 특성 정보를 자동으로 생성한다.
기존의 제로샷 학습 모델을 예시한 도 1을 참조하면, 기존의 제로샷 학습은 학습에 사용한 클래스(seen class)의 데이터로부터 해당 클래스와 관련된 특성 정보(attribute)를 올바르게 추론할 수 있도록 모델을 학습하면, 처음 보는 클래스(Unseen Class)의 데이터에 대해서도 해당 클래스의 특성 정보를 추론한 후 처음 보는 클래스를 인식한다.
학습에 사용한 클래스(Seen Class)는 특성 정보를 학습하는데 활용되는 학습용 클래스이고, 처음 보는 클래스(Unseen Class)는 학습에서 전혀 사용되지 않은 테스트용 제로샷 클래스이다. 단일 카테고리 데이터 세트는 하나의 카테고리(클래스의 집합)에 한정된 클래스로만 이루어진 데이터 세트이다. 예를 들면, 꽃 종류들만 포함된 데이터 세트, 새 종류들만 포함된 데이터 세트 등이 있다.
데이터 세트에 정의된 특성 정보(Given Attribute)는 클래스를 대표하는 주요 특성을 의미하다. 예를 들어, 새의 부리 길이, 날개 색상, 몸 크기 등이 있다. 또는 말의 다리 길이, 머리 모양, 꼬리 모양 등이 있다. 제로샷 학습 모델은 특성 정보를 핵심 단서로 사용한다. 데이터 세트에 학습용으로 미리 정의되어 있는 경우 제로샷 학습시 정확도가 낮아지는 문제가 있다.
데이터 세트에 정의되지 않은 특성 정보(Not Given Attribute)는 기존 데이터 세트에 정의되어 있지 않은 특성 정보를 의미한다. 본 실시예에서는 특성 정보를 자동으로 생성하여 기존 제로샷 학습 방식의 한계를 극복한다.
슈도 특성 정보는 기존 데이터 세트의 특성 정보에는 정의되어 있지 않은 새로운 특성 정보를 자동으로 생성된 특성 정보를 의미한다. 예를 들어, 기존에 사용자에 의해 정의된 "말"을 구분하기 위한 특성 정보와 달리 말과 얼룩말의 구분을 위한 새로운 "줄무늬" 개념을 표현하는 특성 정보를 추가로 생성한다.
도 2는 본 발명의 일 실시예에 따른 제로샷 인식 장치를 예시한 블록도이다.
제로샷 인식 장치(110)는 적어도 하나의 프로세서(120), 컴퓨터 판독 가능한 저장매체(130) 및 통신 버스(170)를 포함한다.
프로세서(120)는 제로샷 인식 장치(110)로 동작하도록 제어할 수 있다. 예컨대, 프로세서(120)는 컴퓨터 판독 가능한 저장 매체(130)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 컴퓨터 실행 가능 명령어는 프로세서(120)에 의해 실행되는 경우 제로샷 인식 장치(110)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능한 저장 매체(130)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능한 저장 매체(130)에 저장된 프로그램(140)은 프로세서(120)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독한 가능 저장 매체(130)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 제로샷 인식 장치(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(170)는 프로세서(120), 컴퓨터 판독 가능한 저장 매체(140)를 포함하여 제로샷 인식 장치(110)의 다른 다양한 컴포넌트들을 상호 연결한다.
제로샷 인식 장치(110)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(150) 및 하나 이상의 통신 인터페이스(160)를 포함할 수 있다. 입출력 인터페이스(150) 및 통신 인터페이스(160)는 통신 버스(170)에 연결된다. 입출력 장치(미도시)는 입출력 인터페이스(150)를 통해 제로샷 인식 장치(110)의 다른 컴포넌트들에 연결될 수 있다.
제로샷 인식 장치(110)는 제로샷 데이터 학습 과정에서 필요한 특성 정보를 사용자에 의하지 않고 자동으로 생성하는 모델로서, 적대적 생성 신경망에서 새롭게 정의된 (i) 조건부 생성 손실 함수, (ii) 분류 손실 함수, (iii) 트리플릿 손실 함수, 및 (iv) 내부 독립성 손실 함수를 최적화하여 사용자에 의해 정의되지 않은 처음 보는 클래스의 슈도 특성 정보를 생성함으로써, 처음 보는 클래스의 이미지 또는 비디오에 대하여 서로 다른 클래스를 인식한다.
도 3은 본 발명의 일 실시예에 따른 제로샷 인식 장치의 특성 정보 생성 모델을 예시한 블록도이다.
제로샷 인식 장치는 특징 추출 모델, 특징 생성 모델, 슈도 특성 생성 모델을 포함할 수 있다. 슈도 특성 생성 모델은 특징 추출 모델의 출력과 특징 생성 모델의 출력을 입력받는다.
특징 추출 모델은 이미지 또는 비디오 등을 입력으로 하고, 시각적 특징 정보를 출력으로 한다. 예컨대, 특징 추출 모델은 CNN(Convolutional Neural Network)으로 구현될 수 있다. 특징 추출 모델은 다수의 레이어가 네트워크로 연결되며 히든 레이어를 포함한다. 레이어는 파라미터를 포함할 수 있고, 레이어의 파라미터는 학습가능한 필터 집합을 포함한다. 필터는 컨볼루션 필터를 적용할 수 있다. 파라미터는 노드 간의 가중치 및/또는 바이어스를 포함한다.
특징 생성 모델 및 슈도 특성 생성 모델은 적대적 생성 신경망을 이용한다.
적대적 생성 신경망 및 슈도 특성 생성 모델에서 사용되는 용어를 먼저 정의한다.
Figure 112019042560382-pat00001
는 사용된 클래스의 학습 데이터 세트이다.
Figure 112019042560382-pat00002
는 CNN 특징 정보이다. y는
Figure 112019042560382-pat00003
내의 클래스 레이블이다. Cs는 사용된 클래스의 개수이다.
Figure 112019042560382-pat00004
는 사용자에 의해 정의된 특성 정보이다.
Figure 112019042560382-pat00005
는 사용자에 의해 정의된 특성 정보 공간이다.
Figure 112019042560382-pat00006
는 처음 보는 클래스의 테스트 데이터 세트이다. X는
Figure 112019042560382-pat00007
내의 CNN 특징 정보이다. y는
Figure 112019042560382-pat00008
내의 클래스 레이블이다. Cu는 처음 보는 클래스의 개수이다.
Figure 112019042560382-pat00009
는 사용자에 의해 정의된 특성 정보이다. GZSL(Generalized Zero-Shot Learning)은
Figure 112019042560382-pat00010
Figure 112019042560382-pat00011
조건에서 분류 모델
Figure 112019042560382-pat00012
을 학습한다. 학습 데이터와 평가 데이터의 클래스 간의 교집합이 공집합으로 서로 독립 집합인 경우, 학습되지 않은 데이터라도 클래스에 맞게 해당하는 처리를 수행한다.
Figure 112019042560382-pat00013
는 처음 보는 클래스의 슈도 특성 공간이다.
Figure 112019042560382-pat00014
는 클래스 레이블 y와 관련된 슈도 특성 정보이다. 슈도 특성 정보는 사용된 클래스 y의 전체 CNN 특징 정보의 평균으로 표현될 수 있다. 예컨대, 전체 CNN 특징 정보의 평균으로 정의된 슈도 특성 정보는
Figure 112019042560382-pat00015
으로 표현될 수 있다. N은 사용된 클래스 y의 CNN 특징 정보의 개수이다. 처음 보는 클래스의 CNN 특징 정보를 알 수 없기 때문에, 처음 보는 클래스의 슈도 특성 공간
Figure 112019042560382-pat00016
을 획득하기 위해 처음 보는 특징을 생성한다. 전체 클래스의 슈도 특성 공간
Figure 112019042560382-pat00017
을 획득할 수 있다.
적대적 생성신경망(Generative Adversarial Network)의 손실 함수는 수학식 1과 같이 정의된다.
Figure 112019042560382-pat00018
x는 실재 데이터의 분산
Figure 112019042560382-pat00019
으로부터 추출되는 사용된 클래스 y의 CNN 특징 정보이다.
Figure 112019042560382-pat00020
는 사용된 클래스 y의 생성된 CNN 특징 정보이다. Z는 가우시안 분산
Figure 112019042560382-pat00021
으로부터 추출된 노이즈 벡터이다. ay는 사용자의 의해 정의된 특성 정보 벡터이다.
판별 모델 D는 다수의 레이어를 갖고 마지막 레이어는 시그모이드 함수를 갖는 퍼셉트론(Perceptron)으로 구현될 수 있다. 생성 모델 G의 목적은 손실을 최소화하고 판별 모델 D의 목적은 손실을 최대화한다.
특징 생성 모델은 랜덤 노이즈 분포와 클래스 임베딩을 입력받고 처음 보는 클래스의 특징 정보를 출력한다. 예컨대, 특징 생성 모델은 f-CLSWGAN으로 구현될 수 있다.
특징 생성 모델은 생성 모델과 판별 모델이 상호 작용하는 적대적 생성 신경망에서 (i) 사용자에 의해 정의된 특성 정보에 바서스타인 거리(Wasserstein Distance)가 적용된 조건부 생성 손실 함수 및 (ii) 사용된 클래스(Seen Class)의 데이터를 이용하여 학습된 파라미터가 적용된 분류 손실 함수를 최적화하여, 시각적 특징 정보를 합성할 수 있다.
특징 생성 모델의 조건부 생성 손실 함수는 수학식 2와 같이 표현된다.
Figure 112019042560382-pat00022
Figure 112019042560382-pat00023
Figure 112019042560382-pat00024
조건에 따른 처음 보는 클래스의 CNN 특징 정보이다. λ는 페널티 가중치 파라미터이다. 수학식 2는 수학식 1의 로그 우드(Log Likelihood) 대신에 바서스타인 거리를 적용하고, 경사 페널티를 추가로 포함한다. 바서스타인 거리는 두 확률분포의 연관성을 측정하여 그 거리의 기대값이 가장 작을 때의 거리를 의미한다. 결합 확률분포는 두 분포가 동시에 일어날 때의 사건에 대한 확률분포를 의미한다.
특징 생성 모델의 분류 손실 함수는 수학식 3과 같이 표현된다.
Figure 112019042560382-pat00025
Figure 112019042560382-pat00026
는 처음 보는 클래스 y의 생성된 CNN 특징 정보이다.
Figure 112019042560382-pat00027
는 파라미터
Figure 112019042560382-pat00028
을 이용한 선형 분류기로 산출된 확률로, 클래스 레이블 y의 예측 점수의 소프트맥스 값이다.
Figure 112019042560382-pat00029
는 사용된 클래스의 실재 CNN 특징 정보이다.
특징 생성 모델의 손실 함수는 조건부 생성 손실 함수와 계수가 적용된 분류 손실 함수로 수학식 4와 같이 표현된다.
Figure 112019042560382-pat00030
슈도 특성 생성 모델은 랜덤 노이즈 분포와 전체 학습 데이터를 입력받고 슈도 특성 정보를 출력한다.
슈도 특성 생성 모델은 생성 모델과 판별 모델이 상호 작용하는 적대적 생성 신경망에서 (i) 조건부 생성 손실 함수, (ii) 분류 손실 함수, (iii) 트리플릿 손실 함수, 및 (iv) 내부 독립성 손실 함수를 최적화하여 슈도 특성 정보를 교정한다.
Figure 112019042560382-pat00031
는 전체 클래스의 슈도 특성 공간이다.
Figure 112019042560382-pat00032
는 사용된 클래스의 슈도 특성 공간이고,
Figure 112019042560382-pat00033
는 처음 보는 클래스의 슈도 특성 공간이다. 슈도 특성 공간은 데이터가 매핑된 특정 차원의 임베딩 공간을 의미할 수 있다.
Figure 112019042560382-pat00034
는 전체 학습 데이터 세트이다.
Figure 112019042560382-pat00035
는 생성된 처음 보는 학습 데이터 세트이고,
Figure 112019042560382-pat00036
는 실재 사용된 학습 데이터 세트이다.
Figure 112019042560382-pat00037
는 생성된 처음 보는 특징 정보이고, x는 실재 사용된 특징 정보이다.
조건부 생성 손실 함수는 수학식 5와 같이 표현된다.
Figure 112019042560382-pat00038
Figure 112019042560382-pat00039
Figure 112019042560382-pat00040
조건에 따른 생성된 슈도 특성 정보이다. λ는 페널티 가중치 파라미터이다.
py는 슈도 특성 데이터 분산
Figure 112019042560382-pat00041
에서 추출된 슈도 특성이고,
Figure 112019042560382-pat00042
는 생성 모델 분산
Figure 112019042560382-pat00043
에서 추출된 생성된 슈도 특성이다.
분류 손실 함수는 수학식 6과 같이 표현된다.
Figure 112019042560382-pat00044
분류 손실 함수는 생성 모델이 차별된 특징 정보를 생성하게 한다.
Figure 112019042560382-pat00045
는 클래스 y에 대한 생성된 슈도 특성 정보이다.
Figure 112019042560382-pat00046
는 클래스 레이블 y에 대해 예측되는 x의 확률이다. 확률은 양립 가능성 점수를 기반으로 산출된다. 양립 가능성 점수는 수학식 7과 같이 표현된다.
Figure 112019042560382-pat00047
Figure 112019042560382-pat00048
는 생성된 슈도 특성 정보이고,
Figure 112019042560382-pat00049
는 생성 모델로부터 획득된 클래스 y에 대한 잠재 특징 벡터이다.
Figure 112019042560382-pat00050
는 풀리 커넥티드 레이어(Fully Connected Layer)를 갖는 가중치 매트릭스이다. 가중치 매트릭스는
Figure 112019042560382-pat00051
를 슈도 특성 공간에 매핑한다. 주어진 이미지 x에 대해서 확률
Figure 112019042560382-pat00052
은 전체 클래스
Figure 112019042560382-pat00053
의 양립 가능성 점수의 소프트맥스 값이다. 확률은 수학식 8과 같이 표현된다.
Figure 112019042560382-pat00054
트리플릿 손실 함수는 수학식 9와 같이 표현된다.
Figure 112019042560382-pat00055
Figure 112019042560382-pat00056
는 CNN 특징 정보 xi로부터 생성된 슈도 특성 정보이다.
Figure 112019042560382-pat00057
Figure 112019042560382-pat00058
는 동일한 클래스에 해당하고,
Figure 112019042560382-pat00059
Figure 112019042560382-pat00060
는 상이한 클래스에 해당한다. 마진 m은 1로 설정될 수 있다. d(x, y)는 x와 y 간의 유클리드 거리이다.
내부 독립성 손실 함수는 수학식 10과 같이 표현된다.
Figure 112019042560382-pat00061
슈도 특성 정보의 중복을 감소시키는 슈도 특성 정보의 중복을 감소시킨다.
Figure 112019042560382-pat00062
는 전체 클래스의 생성된 슈도 특성 정보 매트릭스이다. Cs+Cu는 전체 클래스의 개수이다.
슈도 특성 생성 모델의 손실 합수는 조건부 생성 손실 함수, 분류 손실 함수, 트리플릿 손실 함수, 및 내부 독립성 손실 함수가 결합되며, 수학식 11과 같이 표현된다.
Figure 112019042560382-pat00063
슈도 특성 생성 모델의 손실 함수의 계수는 제1 계수 α는 0.01, 제2 계수 β는 0.02, 제3 계수 γ는 0.0001로 설정될 수 있다.
Figure 112019042560382-pat00064
는 전체 학습 데이터 세트이고, 실재 사용된 특징 정보 세트와 생성된 처음 보는 특징 정보를 포함한다.
슈도 특성 생성 모델은 생성 모델 G와 CNN 특징 정보
Figure 112019042560382-pat00065
를 이용하여 전체 클래스의 슈도 특성 정보
Figure 112019042560382-pat00066
를 생성한다.
슈도 특성 생성 모델은 생성된 슈도 특성 공간
Figure 112019042560382-pat00067
을 임베딩 공간으로 활용하고 클래스 y의 양립 가능성 점수 s(y)는 내적으로 정의된다.
Figure 112019042560382-pat00068
Figure 112019042560382-pat00069
는 CNN 특징 정보이고,
Figure 112019042560382-pat00070
는 클래스 y에 대해 생성된 슈도 특성 벡터이고,
Figure 112019042560382-pat00071
는 슈도 특성 공간에 x가 매핑된 가중치 매트릭스이다.
주어진 특징 정보 x의 클래스 레이블을 추론하기 위해서, 특징 정보는
Figure 112019042560382-pat00072
특성 표현에 투영된다. 양립 가능성 점수 s(y)는 최선의 매칭된 클래스를 선택하도록 사용될 수 있다.
Figure 112019042560382-pat00073
Figure 112019042560382-pat00074
로 GZSL를 설정할 수 있다. 가장 높은 양립 가능성 점수를 갖는 y*는 예측된 클래스이다. 생성된 슈도 특성 정보 대신에 사용자의 의한 특성 정보를 이용할 수 있다. 사용자에 의해 정의된 특성 공간으로 대체된 양립 가능성 점수는 수학식 14와 같이 표현된다.
Figure 112019042560382-pat00075
Figure 112019042560382-pat00076
는 CNN 특징 정보이고,
Figure 112019042560382-pat00077
는 존재하는 사용자에 의해 정의된 특성 벡터이고,
Figure 112019042560382-pat00078
는 가중치 매트릭스이다. 주어진 특징 정보 x의 클래스 레이블을 추론하기 위해서, 특징 정보는
Figure 112019042560382-pat00079
특성 표현에 투영된다. 양립 가능성 점수 sa(y)는 최선의 매칭된 클래스를 선택하도록 사용될 수 있다.
Figure 112019042560382-pat00080
Figure 112019042560382-pat00081
조건에서, 가장 높은 양립 가능성 점수를 가는 y*는 예측된 클래스이다.
두 개의 양립 가능성 점수 s(y) 및 sa(y)는 출력 레이어에서 결합되는 레이트 퓨전(Late Fusion)이 적용될 수 있다.
Figure 112019042560382-pat00082
생성된 슈도 특성 벡터 및 사용자에 의해 정의된 특성 벡터에 의한 양립 가능성 점수 s(y) 및 sa(y)를 결합시켜 제로샷 학습의 성능을 향상시킬 수 있다.
도 4는 본 발명의 다른 실시예에 따른 제로샷 인식 방법을 예시한 흐름도이다. 제로샷 인식 방법은 컴퓨팅 디바이스에 의하여 수행될 수 있으며, 제로샷 인식 장치와 동일한 방식으로 동작한다.
단계 S210에서 프로세서는 특징 생성 모델을 이용하여 처음 보는 클래스(Unseen Class)의 특징 정보를 생성한다.
특징 생성 모델은 랜덤 노이즈 분포와 클래스 임베딩을 입력받고 상기 처음 보는 클래스의 특징 정보를 출력하며, 생성 모델과 판별 모델이 상호 작용하는 적대적 생성 신경망에서 (i) 사용자에 의해 정의된 특성 정보에 바서스타인 거리(Wasserstein Distance)가 적용된 조건부 생성 손실 함수 및 (ii) 사용된 클래스(Seen Class)의 데이터를 이용하여 학습된 파라미터가 적용된 분류 손실 함수를 최적화하여, 시각적 특징 정보를 합성한다.
단계 S220에서 프로세서는 처음 보는 클래스의 특징 정보를 이용하여 슈도 특성 생성 모델에서 정의된 손실 함수를 기반으로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보를 생성한다.
슈도 특성 정보를 생성하는 단계(S220)는 사용된 클래스의 슈도 특성 공간 및 처음 보는 클래스의 슈도 특성 공간을 획득하고, 사용된 클래스에 관한 실재의 데이터 및 처음 보는 클래스에 관한 생성된 데이터를 포함하는 전체 학습 데이터를 획득한다.
슈도 특성 생성 모델은 랜덤 노이즈 분포와 전체 학습 데이터를 입력받고 슈도 특성 정보를 출력하며, 생성 모델과 판별 모델이 상호 작용하는 적대적 생성 신경망에서 (i) 조건부 생성 손실 함수, (ii) 분류 손실 함수, (iii) 트리플릿 손실 함수, 및 (iv) 내부 독립성 손실 함수를 최적화하여 슈도 특성 정보를 교정한다.
조건부 생성 손실 함수는 페널티 가중치를 조건부로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보에 바서스타인 거리(Wasserstein Distance)를 적용한다.
분류 손실 함수는 생성된 슈도 특성 정보에 대하여 클래스 레이블을 사용하여 예측된 특성 정보의 양립 가능성 점수를 갖는 확률을 적용한다. 생성된 슈도 특성 정보는 생성 모델에 의해 획득한 상기 클래스 레이블에 대한 잠재적 특징 벡터에 가중치 매트릭스가 적용되며, 가중치 매트릭스는 임베딩 공간에서 선택된 슈도 특성 공간에 잠재적 특징 벡터가 매핑된다.
트리플릿 손실 함수는 (i) 동일한 클래스로부터 생성된 슈도 특성 정보 간에 거리 및 (ii) 상이한 클래스로부터 생성된 슈도 특성 정보 간에 거리의 차이로 정의된다.
내부 독립성 손실 함수는 전체 클래스에 대하여 생성된 슈도 특성 정보의 매트릭스를 검사하여 슈도 특성 정보의 중복을 감소시킨다.
단계 S230에서 프로세서는 슈도 특성 정보를 제로샷 학습 모델에 전송한다.
단계 S240에서 프로세서는 슈도 특성 정보를 상기 제로샷 학습 모델에 전송하면, 제로샷 학습 모델은 슈도 특성 정보를 적용하여 처음 보는 클래스의 데이터를 인식하며, 제로샷 학습 모델은 (i) 사용자에 의해 정의된 특성 정보와 (ii) 상기 슈도 특성 정보를 기준으로 인식한다.
도 5는 본 발명의 실시예들에 따른 시뮬레이션 결과를 예시한 도면이다.
도 5의 이미지들은 기존 데이터 세트에 존재하는 특성 정보(user-defined attribute)와 본 실시예에 따라 생성된 특성 정보(pseudo-attribute)를 비교한 결과이다.
기존 데이터셋에 존재하는 특성 정보는 실제 특성 정보와 관련이 없는 이미지들이 가장 높은 활성(Activation) 값을 갖는 반면에, 본 실시예에 따라 생성된 특성 정보는 실제 특성 정보와 관련이 있는 이미지들로만 형성되는 것을 확인할 수 있다.
제로샷 인식 장치는 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합에 의해 로직회로 내에서 구현될 수 있고, 범용 또는 특정 목적 컴퓨터를 이용하여 구현될 수도 있다. 장치는 고정배선형(Hardwired) 기기, 필드 프로그램 가능한 게이트 어레이(Field Programmable Gate Array, FPGA), 주문형 반도체(Application Specific Integrated Circuit, ASIC) 등을 이용하여 구현될 수 있다. 또한, 장치는 하나 이상의 프로세서 및 컨트롤러를 포함한 시스템온칩(System on Chip, SoC)으로 구현될 수 있다.
제로샷 인식 장치는 하드웨어적 요소가 마련된 컴퓨팅 디바이스 또는 서버에 소프트웨어, 하드웨어, 또는 이들의 조합하는 형태로 탑재될 수 있다. 컴퓨팅 디바이스 또는 서버는 각종 기기 또는 유무선 통신망과 통신을 수행하기 위한 통신 모뎀 등의 통신장치, 프로그램을 실행하기 위한 데이터를 저장하는 메모리, 프로그램을 실행하여 연산 및 명령하기 위한 마이크로프로세서 등을 전부 또는 일부 포함한 다양한 장치를 의미할 수 있다.
도 5 및 도 6에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나 이는 예시적으로 설명한 것에 불과하고, 이 분야의 기술자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 5 및 도 6에 기재된 순서를 변경하여 실행하거나 또는 하나 이상의 과정을 병렬적으로 실행하거나 다른 과정을 추가하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이다.
본 실시예들에 따른 동작은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능한 매체에 기록될 수 있다. 컴퓨터 판독 가능한 매체는 실행을 위해 프로세서에 명령어를 제공하는 데 참여한 임의의 매체를 나타낸다. 컴퓨터 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 또는 이들의 조합을 포함할 수 있다. 예를 들면, 자기 매체, 광기록 매체, 메모리 등이 있을 수 있다. 컴퓨터 프로그램은 네트워크로 연결된 컴퓨터 시스템 상에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드, 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.
본 실시예들은 본 실시예의 기술 사상을 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (15)

  1. 컴퓨팅 디바이스에 의한 제로샷 인식 방법에 있어서,
    특징 생성 모델을 이용하여 처음 보는 클래스(Unseen Class)의 특징 정보를 생성하는 단계;
    상기 처음 보는 클래스의 특징 정보를 이용하여 슈도 특성 생성 모델에서 정의된 손실 함수를 기반으로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보를 생성하는 단계; 및
    상기 슈도 특성 정보를 제로샷 학습 모델에 전송하는 단계를 포함하며,
    상기 슈도 특성 정보를 생성하는 단계는 사용된 클래스의 슈도 특성 공간 및 처음 보는 클래스의 슈도 특성 공간을 획득하고, 상기 사용된 클래스에 관한 실재의 데이터 및 처음 보는 클래스에 관한 생성된 데이터를 포함하는 전체 학습 데이터를 획득하고,
    상기 슈도 특성 생성 모델은 랜덤 노이즈 분포와 상기 전체 학습 데이터를 입력받고 상기 슈도 특성 정보를 출력하며, 제1 생성 모델과 제1 판별 모델이 상호 작용하는 제1 적대적 생성 신경망에서 (i) 상기 제1 생성 모델은 조건부 생성 손실 함수, 분류 손실 함수, 트리플릿 손실 함수, 및 내부 독립성 손실 함수가 결합된 제1 손실 함수를 최소화하고, (ii) 상기 제1 판별 모델은 상기 조건부 생성 손실 함수, 상기 분류 손실 함수, 상기 트리플릿 손실 함수, 및 상기 내부 독립성 손실 함수가 결합된 상기 제1 손실 함수를 최대화하는 최적화 과정을 통해 상기 슈도 특성 정보를 교정하는 것을 특징으로 하는 제로샷 인식 방법.
  2. 제1항에 있어서,
    상기 특징 생성 모델은 랜덤 노이즈 분포와 클래스 임베딩을 입력받고 상기 처음 보는 클래스의 특징 정보를 출력하며, 제2 생성 모델과 제2 판별 모델이 상호 작용하는 제2 적대적 생성 신경망에서 (i) 상기 제2 생성 모델은 사용자에 의해 정의된 특성 정보에 바서스타인 거리(Wasserstein Distance)가 적용된 조건부 생성 손실 함수 및 사용된 클래스(Seen Class)의 데이터를 이용하여 학습된 파라미터가 적용된 분류 손실 함수가 결합된 제2 손실 함수를 최소화하고, (ii) 상기 제2 판별 모델은 상기 사용자에 의해 정의된 특성 정보에 상기 바서스타인 거리(Wasserstein Distance)가 적용된 상기 조건부 생성 손실 함수 및 상기 사용된 클래스(Seen Class)의 데이터를 이용하여 학습된 파라미터가 적용된 상기 분류 손실 함수가 결합된 상기 제2 손실 함수를 최대화하는 최적화 과정을 통해 시각적 특징 정보를 합성하는 것을 특징으로 하는 제로샷 인식 방법.
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 조건부 생성 손실 함수는 페널티 가중치를 조건부로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보에 바서스타인 거리(Wasserstein Distance)를 적용하는 것을 특징으로 하는 제로샷 인식 방법.
  6. 제1항에 있어서,
    상기 분류 손실 함수는 생성된 슈도 특성 정보에 대하여 클래스 레이블을 사용하여 예측된 특성 정보의 양립 가능성 점수를 갖는 확률을 적용하는 것을 특징으로 하는 제로샷 인식 방법.
  7. 제6항에 있어서,
    상기 생성된 슈도 특성 정보는 상기 생성 모델에 의해 획득한 상기 클래스 레이블에 대한 잠재적 특징 벡터에 가중치 매트릭스가 적용되며, 상기 가중치 매트릭스는 임베딩 공간에서 선택된 슈도 특성 공간에 잠재적 특징 벡터가 매핑된 것을 특징으로 하는 제로샷 인식 방법.
  8. 제1항에 있어서,
    상기 트리플릿 손실 함수는 (i) 동일한 클래스로부터 생성된 슈도 특성 정보 간에 거리 및 (ii) 상이한 클래스로부터 생성된 슈도 특성 정보 간에 거리의 차이로 정의되는 것을 특징으로 하는 제로샷 인식 방법.
  9. 제1항에 있어서,
    상기 내부 독립성 손실 함수는 전체 클래스에 대하여 생성된 슈도 특성 정보의 매트릭스를 검사하여 슈도 특성 정보의 중복을 감소시키는 것을 특징으로 하는 제로샷 인식 방법.
  10. 제1항에 있어서,
    상기 슈도 특성 정보를 상기 제로샷 학습 모델에 전송하면,
    상기 제로샷 학습 모델은 상기 슈도 특성 정보를 적용하여 처음 보는 클래스의 데이터를 인식하며, 상기 제로샷 학습 모델은 (i) 사용자에 의해 정의된 특성 정보와 (ii) 상기 슈도 특성 정보를 기준으로 인식하는 것을 특징으로 하는 제로샷 인식 방법.
  11. 하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 제로샷 인식 장치에 있어서,
    상기 프로세서는 특징 생성 모델을 이용하여 처음 보는 클래스(Unseen Class)의 특징 정보를 생성하고,
    상기 프로세서는 상기 처음 보는 클래스의 특징 정보를 이용하여 슈도 특성 생성 모델에서 정의된 손실 함수를 기반으로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보를 생성하고,
    상기 프로세서는 상기 슈도 특성 정보를 제로샷 학습 모델에 전송하며,
    상기 프로세서는 사용된 클래스의 슈도 특성 공간 및 처음 보는 클래스의 슈도 특성 공간을 획득하고, 상기 사용된 클래스에 관한 실재의 데이터 및 처음 보는 클래스에 관한 생성된 데이터를 포함하는 전체 학습 데이터를 획득하여, 상기 슈도 특성 정보를 생성하고,
    상기 슈도 특성 생성 모델은 랜덤 노이즈 분포와 상기 전체 학습 데이터를 입력받고 상기 슈도 특성 정보를 출력하며, 제1 생성 모델과 제1 판별 모델이 상호 작용하는 제1 적대적 생성 신경망에서 (i) 상기 제1 생성 모델은 조건부 생성 손실 함수, 분류 손실 함수, 트리플릿 손실 함수, 및 내부 독립성 손실 함수가 결합된 제1 손실 함수를 최소화하고, (ii) 상기 제1 판별 모델은 상기 조건부 생성 손실 함수, 상기 분류 손실 함수, 상기 트리플릿 손실 함수, 및 상기 내부 독립성 손실 함수가 결합된 상기 제1 손실 함수를 최대화하는 최적화 과정을 통해 상기 슈도 특성 정보를 교정하는 것을 특징으로 하는 제로샷 인식 장치.
  12. 삭제
  13. 삭제
  14. 제11항에 있어서,
    상기 조건부 생성 손실 함수는 페널티 가중치를 조건부로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보에 바서스타인 거리(Wasserstein Distance)를 적용하며,
    상기 분류 손실 함수는 생성된 슈도 특성 정보에 대하여 클래스 레이블을 사용하여 예측된 특성 정보의 양립 가능성 점수를 갖는 확률을 적용하는 것을 특징으로 하는 제로샷 인식 장치.
  15. 제11항에 있어서,
    상기 트리플릿 손실 함수는 (i) 동일한 클래스로부터 생성된 슈도 특성 정보 간에 거리 및 (ii) 상이한 클래스로부터 생성된 슈도 특성 정보 간에 거리의 차이로 정의되며,
    상기 내부 독립성 손실 함수는 전체 클래스에 대하여 생성된 슈도 특성 정보의 매트릭스를 검사하여 슈도 특성 정보의 중복을 감소시키는 것을 특징으로 하는 제로샷 인식 장치.
KR1020190048205A 2019-04-25 2019-04-25 데이터 세트에 정의되지 않은 특성 정보를 자동으로 생성하는 제로샷 인식 장치 및 방법 KR102185855B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190048205A KR102185855B1 (ko) 2019-04-25 2019-04-25 데이터 세트에 정의되지 않은 특성 정보를 자동으로 생성하는 제로샷 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190048205A KR102185855B1 (ko) 2019-04-25 2019-04-25 데이터 세트에 정의되지 않은 특성 정보를 자동으로 생성하는 제로샷 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20200130759A KR20200130759A (ko) 2020-11-20
KR102185855B1 true KR102185855B1 (ko) 2020-12-02

Family

ID=73697193

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190048205A KR102185855B1 (ko) 2019-04-25 2019-04-25 데이터 세트에 정의되지 않은 특성 정보를 자동으로 생성하는 제로샷 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102185855B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230159661A (ko) 2022-05-11 2023-11-21 동국대학교 산학협력단 제로샷 학습 기반 지식 그래프의 링크 예측 모델 생성 장치 및 방법
KR20230174622A (ko) 2022-06-21 2023-12-28 동국대학교 산학협력단 일반화된 제로샷 학습을 위한 콘텐츠 및 속성 분리 장치 및 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102477700B1 (ko) * 2021-03-16 2022-12-14 포항공과대학교 산학협력단 대조 학습과 적대적 생성 신경망을 활용하는 이미지 생성 및 편집 방법과 장치
CN113269274B (zh) * 2021-06-18 2022-04-19 南昌航空大学 一种基于循环一致性的零样本识别方法及系统
CN117541882B (zh) * 2024-01-05 2024-04-19 南京信息工程大学 一种基于实例的多视角视觉融合转导式零样本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
R. Felix et. al., Multi-modal cycle-consistent generalized zero-shot learning, ECCV(2018.09.08.) 1부.*
Y. Xian. et. al., Feature generating networks for zero-shot learning, CVPR (2018.06.19.) 1부*

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230159661A (ko) 2022-05-11 2023-11-21 동국대학교 산학협력단 제로샷 학습 기반 지식 그래프의 링크 예측 모델 생성 장치 및 방법
KR20230174622A (ko) 2022-06-21 2023-12-28 동국대학교 산학협력단 일반화된 제로샷 학습을 위한 콘텐츠 및 속성 분리 장치 및 방법

Also Published As

Publication number Publication date
KR20200130759A (ko) 2020-11-20

Similar Documents

Publication Publication Date Title
KR102185855B1 (ko) 데이터 세트에 정의되지 않은 특성 정보를 자동으로 생성하는 제로샷 인식 장치 및 방법
US20190279075A1 (en) Multi-modal image translation using neural networks
JP7193252B2 (ja) 画像の領域のキャプション付加
US8923608B2 (en) Pre-screening training data for classifiers
JP2024500182A (ja) 説明可能なトランスデューサ・トランスフォーマ
WO2020159890A1 (en) Method for few-shot unsupervised image-to-image translation
KR20190056009A (ko) 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
CN112925516A (zh) 用上下文信息进行槽填充
US11176417B2 (en) Method and system for producing digital image features
Garcia-Gasulla et al. An out-of-the-box full-network embedding for convolutional neural networks
KR102291111B1 (ko) 자기 지도 기반의 제로샷 인식 장치 및 방법
JP2022161564A (ja) テキスト画像の文字を認識する機械学習モデルを訓練するシステム
JP2023506169A (ja) 視覚入力に対する形式的安全シンボリック強化学習
KR102117654B1 (ko) 자연어 기반의 비디오 생성 방법 및 장치
KR102479671B1 (ko) 차량 부품 정보를 제공하기 위한 방법
JP2023551487A (ja) 敵対的生成モデルを使用する事前訓練されたモデルに基づくデータの生成
CN110427978B (zh) 面向小样本学习的变分自编码器网络模型和装置
CN116051388A (zh) 经由语言请求的自动照片编辑
KR102149184B1 (ko) 처음 보는 클래스의 설명 가능한 이미지를 생성하는 장치 및 방법
US11966851B2 (en) Construction of a machine learning model
CN111950582A (zh) 为分类模型确定扰动掩模
Reddy et al. Effect of image colourspace on performance of convolution neural networks
US20210174910A1 (en) Method and apparatus for generating new chemical structure using neural network
US11436761B2 (en) Preventing feature loss when compressing images
JP2019023801A (ja) 画像認識装置、画像認識方法、及び画像認識プログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant