KR20220109821A - 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법, 이를 수행하기 위한 기록 매체 및 장치 - Google Patents

불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법, 이를 수행하기 위한 기록 매체 및 장치 Download PDF

Info

Publication number
KR20220109821A
KR20220109821A KR1020210013300A KR20210013300A KR20220109821A KR 20220109821 A KR20220109821 A KR 20220109821A KR 1020210013300 A KR1020210013300 A KR 1020210013300A KR 20210013300 A KR20210013300 A KR 20210013300A KR 20220109821 A KR20220109821 A KR 20220109821A
Authority
KR
South Korea
Prior art keywords
shot
low
unbalanced
learning
attention
Prior art date
Application number
KR1020210013300A
Other languages
English (en)
Other versions
KR102636135B1 (ko
Inventor
이민호
서정우
아민 잘랄리
Original Assignee
경북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경북대학교 산학협력단 filed Critical 경북대학교 산학협력단
Priority to KR1020210013300A priority Critical patent/KR102636135B1/ko
Publication of KR20220109821A publication Critical patent/KR20220109821A/ko
Application granted granted Critical
Publication of KR102636135B1 publication Critical patent/KR102636135B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법은, 입력 받은 낱개의 한자 이미지를 복수개의 이미지 분류 모델들을 기초로 정규화(regularization) 및 데이터 증가법(augmentation)을 적용하여 한자 초서를 학습하는 단계; 이미지 분류 모델 별로 각 층의 특징 맵을 연쇄(concatenate)하여 주목도 맵을 정규화하는 단계; 복수개의 이미지 분류 모델들 중 불균형 타우-정규화가 적용된 적어도 두 개의 분류 모델을 선택하여 정규화 학습하는 단계; 정규화 학습을 기초로 매니샷(many-shot)의 데이터로부터 로우샷(low-shot) 데이터로 로우샷 지식 전이를 수행하는 단계; 및 입력 받은 한자 이미지를 로우샷 지식 전이를 이용하여 분류하는 단계;를 포함한다. 이에 따라, 불균형한 필기체의 초서체를 인식하기 위한 우수한 성능의 분류 모델을 제공한다.

Description

불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법, 이를 수행하기 위한 기록 매체 및 장치{METHOD FOR LOW-SHOT TRANSFER WITH ATTENTION FOR HIGHLY IMBALANCED CURSIVE CHARACTER RECOGNITION, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}
본 발명은 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 불균형 타우-정규화 프레임워크를 이용한 통합적으로 정규화된 로우샷(Low-shot) 집중도 전이학습(RELATIN) 기술에 관한 것이다.
최근 고문서에 대한 글자 인식을 다양한 시도가 이루어지고 있다. 그러나, 사람에 따른 다양한 글씨체 스타일, 극도로 적은 양의 데이터로 인하여 글자 인식 및 분류 작업을 하는데 상당한 어려움을 겪고 있다.
역사적 문서는 과거를 엿볼 수 있으며 그 시대 사람들의 문화, 전통 및 전반적인 라이프 스타일을 탐구할 수 있는 귀중한 리소스를 제공한다. 이처럼 한자는 한글에 많은 영향을 미치지만, 오늘날 대부분의 한국인들은 전통 서적이나 문서를 읽을 수 없다. 따라서, 중국어 번체 문자(한자)를 한국어(한글)로 번역하는 연구가 진행되어 왔다.
이러한 연구는 또한 예를 들어, 공식 원고를 처리하고 디지털화 과정을 속도를 높일 수 있는 기타 문서 분석 및 인식 문서를 은행, 번역 같은 많은 다른 응용 프로그램 등의 연구로 확장될 수 있다. 한자의 번체 문자 인식은 주로 글씨체의 다양성, 복잡한 구조 및 많은 문자 등으로 인해 어려움을 겪고 있다.
더욱이 문서의 품질은 이미지 저하, 잉크 분산 등으로 시간이 지남에 읽기가 더욱 어려워진다. 또한, 샘플이 필기 스타일이 다른 다양한 문서에 분할되어 있기 때문에 매우 불균형하므로, 결과적으로 문자 인식이 어려운 문제가 있다.
딥 러닝은 최근 필기 문자 인식에서 상당한 성공을 거두었으나, 현실에서의 한자 초서체 글자 인식을 위한 데이터는 굉장히 다양한 형태의 필기체로 구성되어 있으며, 분류 불균형과 한정된 학습 데이터로 인해 인식을 더욱 어렵게 한다. 이는 딥 러닝 모델의 학습 및 일반화 성능에 큰 영향을 미칠 수 있다.
KR 10-2019-0103088 A KR 10-2020-0092487 A US 10,671,892 B1
이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법을 제공하는 것이다.
본 발명의 다른 목적은 상기 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법을 수행하기 위한 장치를 제공하는 것이다.
상기한 본 발명의 목적을 실현하기 위한 일 실시예에 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법은, 입력 받은 낱개의 한자 이미지를 복수개의 이미지 분류 모델들을 기초로 정규화(regularization) 및 데이터 증가법(augmentation)을 적용하여 한자 초서를 학습하는 단계; 이미지 분류 모델 별로 각 층의 특징 맵을 연쇄(concatenate)하여 주목도 맵을 정규화하는 단계; 복수개의 이미지 분류 모델들 중 불균형 타우-정규화가 적용된 적어도 두 개의 분류 모델을 선택하여 정규화 학습하는 단계; 정규화 학습을 기초로 매니샷(many-shot)의 데이터로부터 로우샷(low-shot) 데이터로 로우샷 지식 전이를 수행하는 단계; 및 입력 받은 한자 이미지를 로우샷 지식 전이를 이용하여 분류하는 단계;를 포함한다.
본 발명의 실시예에서, 상기 주목도 맵을 정규화하는 단계는, 학습된 네트워크의 파라미터를 사용하여 타겟 네트워크의 파라미터를 추정하는 단계;를 포함할 수 있다.
본 발명의 실시예에서, 상기 적어도 두 개의 분류 모델을 선택하여 정규화 학습하는 단계는, 적어도 두 개의 분류 모델의 네트워크에서 획득한 특징 맵 사이의 거리를 추출하는 단계; 및 추출된 특징 맵 사이의 거리에 특징의 주목도에 따른 가중치를 적용하여 거리를 계산하는 단계;를 포함할 수 있다.
본 발명의 실시예에서, 상기 적어도 두 개의 분류 모델을 선택하여 정규화 학습하는 단계는, 결정 경계의 불균형을 정류하기 위해 분류 가중치를 스케일링하는 단계;를 더 포함할 수 있다.
본 발명의 실시예에서, 상기 한자 초서를 학습하는 단계는, ResNeXt-50, Xception, ResNeXt-101, Inception, ResNet-101 및 Inception-V3) 중 적어도 하나의 이미지 분류 모델을 사용할 수 있다.
본 발명의 실시예에서, 상기 적어도 두 개의 분류 모델을 선택하여 정규화 학습하는 단계는, 분리된 ResNet-101 및 Inception-V3의 분류 모델을 선택할 수 있다.
상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.
상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 장치는, 입력 받은 낱개의 한자 이미지를 복수개의 이미지 분류 모델들을 기초로 정규화(regularization) 및 데이터 증가법(augmentation)을 적용하여 한자 초서를 학습하는 학습부; 이미지 분류 모델 별로 각 층의 특징 맵을 연쇄(concatenate)하여 주목도 맵을 정규화하는 주의 지도 정규화부; 복수개의 이미지 분류 모델들 중 불균형 타우 정규화가 적용된 적어도 두 개의 분류 모델을 선택하여 정규화 학습하는 불균형 타우 정규화 학습부; 정규화 학습을 기초로 매니샷(many-shot)의 데이터로부터 로우샷(low-shot) 데이터로 로우샷 지식 전이를 수행하는 로우샷 전이부; 및 입력 받은 한자 이미지를 로우샷 지식 전이를 이용하여 분류하는 한자 인식부;를 포함한다.
본 발명의 실시예에서, 상기 주의 지도 정규화부는, 학습된 네트워크의 파라미터를 사용하여 타겟 네트워크의 파라미터를 추정할 수 있다.
본 발명의 실시예에서, 상기 불균형 타우 정규화 학습부는, 적어도 두 개의 분류 모델의 네트워크에서 획득한 특징 맵 사이의 거리를 추출하고, 특징의 주목도에 따른 가중치를 적용하여 거리를 계산할 수 있다.
본 발명의 실시예에서, 상기 불균형 타우 정규화 학습부는, 결정 경계의 불균형을 정류하기 위해 분류 가중치를 스케일링할 수 있다.
본 발명의 실시예에서, 상기 학습부는, ResNeXt-50, Xception, ResNeXt-101, Inception, ResNet-101 및 Inception-V3) 중 적어도 하나의 이미지 분류 모델을 사용할 수 있다.
본 발명의 실시예에서, 상기 불균형 타우 정규화 학습부는, 분리된 ResNet-101 및 Inception-V3의 분류 모델을 선택할 수 있다.
이와 같은 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법에 따르면, 상당히 불균형한 필기체의 초서체 손 글씨 글자를 인식하기 위한 우수한 성능의 분류 모델을 제공한다.
구체적으로, 본 발명의 주목도 전이는 사전학습 모델로부터 최적의 특징 맵을 선택하며, 분류 불균형을 다루기 위한 분리 분류기의 타우-정규화 추가는 다른 분류에 비해 우수한 성능을 나타난다. 또한, 본 발명에서 제안된 RELATIN은 지식 전이를 통해 분류 불균형 문제를 보완한다.
도 1은 본 발명의 한자 인식을 위한 시스템의 개략도이다.
도 2는 본 발명의 일 실시예에 따른 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 장치의 블록도이다.
도 3은 본 발명에 따른 불균형 τ-정규화(RELATIN)를 사용하여 정규화된 로우샷 전송을 보여주는 도면이다.
도 4는 본 발명의 일 실시예에 따른 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법의 흐름도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 특징을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도 1은 본 발명의 한자 인식을 위한 시스템의 개략도이다. 도 2는 본 발명의 일 실시예에 따른 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 장치의 블록도이다.
본 발명에 따른 한자 인식을 위한 시스템(1)은 입력부(30)에서 낱개의 한자 글자가 있는 이미지를 입력 받아 인식부(10)를 통해 분류한 후, 출력부(50)를 통해 인식된 한자의 종류를 사용자에게 출력한다.
본 발명은 데이터 분포에서 수가 적은 분류들에 관한 문제를 극복하기 위해, 이 프레임워크는 매니샷 분류의 가중치 벡터들을 따르는 몇 개의 샘플들의 분류들을 위해 가중치 벡터들의 표준을 도와주는 로우샷 규제기를 포함하고 있다.
또한, 한정된 학습데이터 문제 극복과 특징 추출의 향상을 위해, 이 프레임워크는 사전 학습된 네트워크에서 목표 네트워크로의 전이를 기반으로 하는 주목도를 포함하고 있다. 데이터 변이 및 현실 데이터 셋에서의 일반적인 데이터 다양성에 대한 강건성을 향상시키기 위해, 데이터 증가법에 기초한 Jensen-Shannon 발산을 시행했다.
그리고 분류 불균형 문제를 처리하기 위해, 분류기 가중치 축소와 타우-정규화를 통해 결정 경계를 바로잡는 분리 분류기가 포함되어있다.
본 발명에서는 상기 인식부(10)를 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 장치(10, 이하 장치)로 설명한다.
본 발명에 따른 장치(10)는 전통기록물에 기록된 한자 글자를 효과적으로 인식할 수 있는 기술을 제공한다.
본 발명의 장치(10)는 불균형 타우-정규화 프레임워크를 이용한 통합적 규제된 로우-샷(Low-shot) 집중도 전이학습(RELATIN)을 이용한다. 주목도 지도 규제기(Attention Map Regularizer)을 이용하여 타우(τ)-정규화된 분리 분류기를 이용하여 최종적으로 한자를 인식한다.
본 발명에서 제안하는 정규를 통해 얼룩 등의 전통기록물의 손상 및 다양한 필체 등의 문제가 있더라도 효과적으로 한자를 구분할 수 있다. 또한, 다양한 데이터 증감법 및 전략들(SD, Augmix, Mixup, Label- smoothing, Dropblock)을 이용하여 적은 양의 데이터에 대해서도 학습하도록 한다
도 2를 참조하면, 본 발명에 따른 장치(10)는 학습부(110), 주의 지도 정규화부(130), 불균형 타우 정규화 학습부(150), 로우샷 전이부(170) 및 한자 인식부(190)를 포함한다.
상기 학습부(110)는 낱개의 한자 이미지를 입력받아 복수개의 이미지 분류 모델들을 기초로 정규화(regularization) 및 데이터 증가법(augmentation)을 적용하여 한자 초서를 학습한다.
상기 주의 지도 정규화부(130)는 이미지 분류 모델 별로 각 층의 특징 맵을 연쇄(concatenate)하여 주목도 맵을 정규화한다.
상기 불균형 타우 정규화 학습부(150)는 복수개의 이미지 분류 모델들 중 불균형 타우 정규화가 적용된 적어도 두 개의 분류 모델을 선택하여 정규화 학습한다.
상기 로우샷 전이부(170)는 정규화 학습을 기초로 매니샷(many-shot)의 데이터로부터 로우샷(low-shot) 데이터로 로우샷 지식 전이를 수행한다.
상기 한자 인식부(190)는 입력받은 한자 이미지를 로우샷 지식 전이를 이용하여 분류한다.
본 발명의 상기 장치(10)는 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이를 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 학습부(110), 상기 주의 지도 정규화부(130), 상기 불균형 타우 정규화 학습부(150), 상기 로우샷 전이부(170) 및 상기 한자 인식부(190)의 구성은 상기 장치(10)에서 실행되는 상기 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이를 수행하기 위한 소프트웨어에 의해 제어될 수 있다.
상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 학습부(110), 상기 주의 지도 정규화부(130), 상기 불균형 타우 정규화 학습부(150), 상기 로우샷 전이부(170) 및 상기 한자 인식부(190)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.
상기 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.
상기 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.
실제 손으로 쓴 데이터 세트에는 종종 획의 차이만 있는 혼동 가능한 유사한 문자가 포함된다. 특히, 흘림체 및 필기체 스타일은 정확한 인식을 하기 위해서는 더욱 복잡하다. 본 발명에서 제안된 RELATIN(Regularized Low-shot Attention Transfer with Imbalance τ-normalizing) 프레임 워크는 필기체 문자 인식의 문제를 완화한다. 
본 발명에서 제시된 모델은, 1) 로우샷(low-shot) 분류에 대한 작은 정규화 크기를 완화하기 위한 로우샷 전송 즉, 인스턴스가 부족한 클래스에서 분류기가 더 높은 성능을 가질 수 있도록 특징 공간의 경계를 넓히는 것을 시도한다. 
2) 활성화되지 않은 채널을 재사용하고, 타겟 네트워크의 특징 맵이 소스 네트워크로 작동하도록 하여 더 많은 인식 특징을 보존하도록 전이 학습한다. 
3) 다수의 클래스가 소수 클래스를 지배하는 것을 방지하기 위해 결정 경계를 재조정하기 위한 분리된 분류자(classifier)를 재학습한다. 
4) AugMix는 데이터 변동 및 왜곡에 대한 강건한 학습을 수행한다. 예를 들어, Jensen-Shannon divergence(JSD) 손실을 사용하여 증가된 샘플의 혼합물에 일관된 임베딩을 생성한다. 
사전에 학습된 네트워크를 미세 조정하면 학습 과정이 개선되어 작은 학습 데이터로 문제를 극복할 수 있다. 타겟 데이터가 사전 학습에 사용된 데이터와 유사하지 않기 때문에 낮은 컨볼루션 계층 가중치가 고정되고 네트워크의 일부 상위 계층만 타겟 데이터를 사용하여 미세 조정된다. 그러나, 이로 인해 타겟 모델의 파라미터가 초기 위치에서 멀어 질 수 있다.
제한된 공간 내에서 파라미터를 제한하는 정규화는 일반적으로 과적합 문제를 해결하기 위해 전이 학습 시나리오에서 사용된다. 그러나, 너무 강력하거나 덜 강력한 정규화가 전이 학습 시나리오에서 항상 최적의 솔루션을 제공하는 것은 아니다. 정규화가 최적이 아니고 제대로 작동하지 않으면 유용한 전이 학습 지식이 손실될 수 있다.
본 발명은 재가중치를 통해 외부 레이어 출력에서 구별되는 특징을 선택하기 위해 주의 메커니즘을 사용한다. 사전 학습된 네트워크와 타겟 네트워크의 외부 계층 출력 사이의 거리는 손실 함수의 정규화 항으로 사용된다. 이 모델은 모델 파라미터(행동 대 메커니즘) 대신 특징 맵을 정규화한다.
주의 모델에서, 외부 레이어 출력은 소스/타겟 네트워크 간의 구별되는 특징을 구별하는데 사용되며, 이들 간의 거리는 손실 함수 정규화항으로 통합된다. 전이 학습은 사전 학습된 네트워크의 파라미터 w*를 사용하여 타겟 네트워크의 파라미터 w를 추정한다.
정규화를 위한 프레임 워크를 임의의 입력 이미지 x와 y에 대한 레이블 학습 및 타겟 네트워크 사이의 발산을 제한하는 주목도 전이 학습은 아래의 수학식 1과 같이 주어진다.
[수학식 1]
Figure pat00001
여기서, 정규화항 
Figure pat00002
는 네트워크 모델 z를 사용하여 전체 학습 데이터에 대해 누적된 사전 학습된 네트워크와 타겟 네트워크 간의 차이이다. 파라미터 w 및 w*를 사용하여 입력 투플(xi, yi)에 따라 모델 z의 동작 차이를 정규화한다.
Figure pat00003
정규화항은 타겟과 사전 학습된 파라미터와 사이의 차이를 나타내므로, 외부 레이어의 특징 맵을 정규화하기 위해, 정규화항에 기초한 주의도에 통합된다.
두 네트워크의 출력 특징 맵 간의 거리를 고려하면, 네트워크의 N 개 필터에 대한 파라미터 w 및 입력 xi를 기반으로 하는 네트워크 모델 z의 출력 계층은 FMj(z, w, xi)로 규정되며, 여기서 정규화항은 아래의 수학식 2와 같이 정의된다.
[수학식 2]
Figure pat00004
여기서, 
Figure pat00005
는 j 번째 필터와 i 번째 이미지에 할당된 가중치이다. 두 특성 맵 간의 동작 차이는 유클리드 거리
Figure pat00006
를 사용하여 측정된다. 
주의 기반 정규화는 두 네트워크에서 얻은 특징 맵 사이의 거리를 계산한 다음 음이 아닌 가중치를 사용하여 거리를 계산한다. 차별적인 특징이 주목도를 갖기 위해, 특징 가중치는 잠재적인 성능 손실을 특징으로 한다. 이들은 감독된 역방향 선택을 사용하여 파생된다. 레이블이 지정된 샘플(xi, yi)의 경우 j 번째 필터가 있는 네트워크와 없는 네트워크의 경험적 손실 간의 간격을 사용하여 아래의 수학식 3에 따라 Wj를 할당한다.
[수학식 3]
Figure pat00007
여기서, 원본 파라미터 w*의 수정은 w*j이며, 여기서 j 번째 필터 요소는 0으로 설정된다. 모든 가중치가 음수가 아닌지 확인하기 위해 softmax는 결과를 정규화한다. 더 높은 성능 향상을 얻기 위해, 이 메커니즘은 사전 훈련된 소스 네트워크의 해당 특징 맵이 매우 차별적일 때 특정 이미지에 대해 더 높은 필터 가중치를 보장한다.
감독된 주목도에서,
Figure pat00008
Figure pat00009
는 식별자를 훈련하기 위해 특징 추출기를 고정하고, 타겟 태스크를 사용하여 L2 거리를 사용하여 계산된다. 소스 데이터 세트가 학습되면 타겟 데이터 세트로 네트워크를 미세 조정하기 전에 기본 네트워크의 마지막 계층이 임의 초기화로 대체된다. 
주목도 전이 학습은 거리 메트릭을 계산하는 것이 중요하다. 만약, 50 개의 특징 맵이 있으면, 50 개의 가중치 계수가 있다. 거리 측정 항목의 출력이 성능을 개선하면, 계수 값이 더 높고 그렇지 않으면 낮은 가중치 값이 할당된다. "불활성화된 채널을 재사용"의 개념은 전이가능한 필터를 보존하고, 재사용 특징 맵 정규화를 가진 주목도 메커니즘을 사용하여 전이 가능한 채널을 재사용한다. 
가중치의 차이를 제한하는 대신, 타겟 네트워크의 일부 계층이 소스 대응 요소로 동작하도록 하여 네트워크 동작을 조절한다. 레이어의 "동작"은 의미가 풍부하고 차별적인 출력으로 정의된다. 
다음으로, AugMix를 본 발명에서 제안한 RELATIN 모델에서 데이터 다양성에 대한 불확실성을 해결하기 위한 주요 증강 접근법으로 설명한다.
실제 시나리오에서 학습 데이터와 테스트 데이터가 일치하지 않는 것은 불가피하다. 신경망이 왜곡에 대해 학습되면 눈에 띄지 않는 왜곡을 일반화하기가 어려워진다. 예상하지 못한 데이터 이동에 대한 견고성은 중요한 문제이며 실제 시나리오에서 기계 학습 시스템의 신뢰성에 큰 영향을 미칠 수 있다. 
데이터 증가는 일반화 성능을 크게 향상시킬 수 있으므로, 제한된 계산 오버 헤드로 예기치 않은 데이터 이동에 대한 견고성과 불확실성을 개선하기 위해 데이터 처리를 수행한다. 본 발명의 일 실시예에서 확률적 샘플링을 사용하여 다양한 증강을 생성하는 AugMix 기술을 사용한다.
AugMix 체계는 이러한 증강 이미지를 혼합하고, Jensen-Shannon Divergence(JSD) 일관성 손실을 채택하여 데이터 분포를 기반으로 타당한 샘플을 생성한다. JSD 손실은 동일한 입력 이미지의 다양한 증강에 걸쳐 일관된 임베딩을 적용하는데 사용된다. 증강 과정은 이하에서 자세히 설명한다.
증가 체인의 결과는 대비, 색상, 밝기, 선명도, 이미지 노이즈 및 AutoAugment의 이미지 흐림과 같은 작업을 사용하여 믹싱된다. 무작위로 선택된 1 ~ 3 개의 선택된 증강 방법을 사용하여 각 특징 보강 체인을 구성한다. 증강 작업의 수는 K로 표시되고, 예를 들어 기본값은 K = 3로 설정될 수 있다.
믹싱은 알파 합성을 통해 증강 체인에서 추출된 이미지를 결합한다. 단순화를 위해 Dirichlet(α,..., α) 분포에서 계수가 무작위로 추출된 요소 별 볼록 조합이 사용될 수 있다. 원본 이미지는 베타(α, α) 분포에서 무작위로 샘플링된 볼록 조합을 사용하는 증가기의 결과와 결합된다. 이 프로세스를 사용하면 작업의 선택과 복잡성, 혼합 가중치 및 증가 체인 길이에 따라 다른 형태의 임의성을 최종 이미지에 통합할 수 있다.
일관성 손실보다 원활한 신경망 응답을 강화하기 위해 위의 증가 방식이 JSD 손실과 결합된다. 이후 AugMix이 이미지의 의미론적 내용을 보존하므로,
Figure pat00010
,
Figure pat00011
Figure pat00012
를 유사하게 포함하고자 한다. 따라서, 
Figure pat00013
의 사후 분포와 증가된 변형 간의 Jensen-Shannon 발산을 최소화하는 것이 중요하다. 즉, 
Figure pat00014
,
Figure pat00015
Figure pat00016
Figure pat00017
에 대해 원본 손실
Figure pat00018
를 아래의 수학식 4와 같이 대체한다.
[수학식 4]
Figure pat00019
여기서, x, y 및 z는 각각 입력 이미지, 해당 레이블 및 모델을 나타낸다. w는 모델 가중치를 나타낸다.
세 분포 porig, pAugMix1 및 pAugMix2 중 하나를 샘플링할 때, Jensen-Shannon 발산은 인스턴스가 분포의 식별에 대해 제공할 수 있는 전체 정보를 측정한다. 이 손실은
Figure pat00020
및 아래의 수학식 5에 의해 두 단계로 측정된다.
[수학식 5[]
Figure pat00021
porig와 pAugMix 사이의 임의의 KL 발산과 달리 Jensen-Shannon 발산의 상한은 분류 수의 로그이다. 그렇지 않으면 
Figure pat00022
로 계산할 수 있다. 그러나, 
Figure pat00023
를 사용한 학습의 이득은 미미하다. 
본 발명은 불균형 학습 기술(즉, 분류자 재학습, 가중치 스케일링 및 τ-정규화)을 정규화된 주의 모델과 통합하여 대다수 클래스가 소수 클래스를 지배하지 않도록 결정 경계의 균형을 맞춘다. 다음에서는 전통적인 아시아 문자 인식에 적용된 불균형 학습 기술을 제시한다.
긴 꼬리 분포는 더 많은 인스턴스가 있는 헤드 클래스가 학습 절차를 지배하는 실제 데이터에서 발생하는 일반적인 문제이다. 분류 모델에서 헤드 클래스의 인식 성능은 인스턴스 수가 적은 테일 클래스보다 훨씬 우수하다. 효율적인 인식 시스템은 몇 가지 알려진 사례에서 일반화 할 수 있어야 하고, 메이저한 클래스와 마이너한 클래스를 모두 분류하고, 새로운 사례에 대한 신규성을 식별할 수 있어야 한다. 더 나은 긴 꼬리 인식 성능을 위해 학습 절차는 식별 학습 및 분류로 분리된다. 특히, 식별을 학습하기 위해 먼저 모델을 학습시킨다. 
학습된 식별을 기초로 균형적인 결정 경계를 가진 분류기를 얻기 위해 다음과 같이 다양한 접근 방식이 있다. 1) 클래스가 균형을 이루도록 파라메트릭 선형 분류기를 다시 학습시키는 방식, 2) 클래스 특정 평균 식별이 학습 세트와 얼마나 가까운 지에 따라 데이터를 분류하는 비파라메트릭 근접 클래스 평균 분류 방식, 3) 분류기 가중치를 정규화하여 가중치 크기가 더 균형을 이루도록 조정되어 정규화 과정을 조절하는 방식.
샘플링 전략은 일반적으로 분류기 및 식별 학습을 위해 데이터 분포를 재조정하도록 설계된다. a) 각 인스턴스가 동일한 확률로 선택되는 인스턴스 균형 샘플링. 인스턴스 균형 샘플링은 가장 우수하고 가장 일반화 가능한 표현을 학습한다. b) 각 등급이 동일한 확률로 선택되는 등급 균형 샘플링. c) 점진적으로 균형적인 샘플링, 이는 인스턴스 기반 샘플링이 Epoch 수에 사용되고 클래스 균형 샘플링이 마지막 Epoch에 사용되는 혼합 샘플링 표준 속도이다. 전체 데이터 세트에서 최고의 성능을 발휘하는 인스턴스 균형 샘플링을 사용한다. 
균형적 데이터 세트는 일반적으로 분류기 가중치 W와 바이어스 b를 모델 파라미터 w와 함께 학습하여 분류기 모델 z(xi, w) 를 학습하는데 사용된다. 이를 위해 Ground Truth yi와 예측
Figure pat00024
사이의 교차 엔트로피 손실이 최소화된다. 이 작업에서는 미세 조정을 통해 헤드 및 꼬리 클래스의 결정 경계를 수정하기 위해 다양한 분류기 조정 전략을 따른다. 
클래스 균형 샘플링은 분류기 재훈련에 사용된다. 식별은 고정되고 분류된 가중치는 무작위로 다시 초기화되며, W와 b는 적은 수의 epoch에 최적화된다. 
τ-표준화에서, 분류 가중치 표준은 결정 경계의 불균형이 정류될 수 있도록 조정된다. 만약, 
Figure pat00025
인 경우, 여기서
Figure pat00026
는 클래스 j에 대응하는 분류자 가중치이고, 가중치 W는 수학식 6에 위해
Figure pat00027
으로 조절된다.
[수학식 6]
Figure pat00028
여기서, τ는 정규화 파라미터고,
Figure pat00029
는 L2 정규화를 나타낸다. 가중치를 원활하게 수정하기 위해 각 클래스의 샘플 수를 기반으로 τ∈{0, 1}을 경험적으로 선택한다. τ-정규화 후 분류 로직은 
Figure pat00030
이다. 편의를 위해 바이어스 항 b는 제거될 수 있다.
이 방법은 수학식 7과 같이 방향을 유지함으로써 각 분류기 wi의 크기를 다시 조정한다.
[수학식 7]
Figure pat00031
τ-정규화에서 fi는 클래스 균형 학습을 사용하여 학습된다. 가중치 스케일링에서 식별 및 분류기 가중치는 모두 고정되어 있으며 스케일링 계수 fi만 학습된다.
실제 데이터 세트에는 학습 과정에서 덜 빈번한 클래스에 대한 데이터가 적기 때문에 불균형 데이터 분포에 대해 학습된 모델은 로우샷에 적합하지 않다. 고도의 불균형한 데이터에 대한 모델의 잘못된 일반화는 주로 소수 클래스를 사용한 비효율적인 학습으로 인해 샘플 수가 적은 클래스를 참조하는 데서 기인한다. 대규모 불균형 필기체 데이터 학습 문제를 극복하기 위해, 본 발명은 로우샷 클래스의 가중치 벡터 표준이 매니샷(many-shot) 샘플과 일치하는 로우샷 전이 손실을 사용한다.
학습 인스턴스가 거의 없는 로우샷 클래스는 특징 공간의 더 작은 파티션에만 해당할 수 있다. 특성 공간에서 클래스 파티션의 볼륨과 이 클래스의 가중치 벡터 표준은 밀접하게 연결되어 있다. 따라서, 로우샷 세트의 각 클래스는 매니샷 클래스와 비교하여 특징 공간에서 유사한 볼륨을 차지해야 한다. 로우샷 정규화는 소수 클래스에 대한 특징 공간의 볼륨을 늘리려고 시도한다. 
이렇게 하면 해당 분류기 가중치 벡터의 표준이 매니샷 샘플의 표준과 유사하게 된다. 따라서, 로우샷 정규화는 로우샷 클래스에서 매니샷 클래스의 가중치 표준을 빼서 아래의 수학식 8과 같이 페널티 항으로 간주한다. 로우샷 페널티 항은 특징 공간에서 하이퍼 플레인의 볼륨을 정규화한다.
[수학식 8]
Figure pat00032
수학식 8에서 LST()는 로우샷 전이 정규화를 나타낸다. CL과 CM은 로우샷 샘플과 매니샷 샘플이 있는 클래스 수를 나타낸다. wi와 wj는 각각 로우샷 및 매니샷 클래스의 분류자 가중치에 해당한다. L2-표준 거리는 
Figure pat00033
로 나타낸다. 
수학식 8은 로우샷 클래스
Figure pat00034
의 L2-표준 공간으로부터 매니샷 클래스
Figure pat00035
Figure pat00036
의 L2-표준 공간의 평균을 빼고, 로우샷 클래스에 더 큰 표준 크기를 할당할 수 있다.
분류기의 가중치 표준은 클래스 별 학습 샘플에 비례한다. 매니샷 클래스는 더 큰 등급으로 분류기를 학습한다. 따라서, 인스턴스가 풍부한 클래스에서 더 높은 성능을 발휘하고 인스턴스 부족 클래스에서 더 낮은 정확도를 가질 수 있도록 더 넓은 특징 공간 경계를 생성한다. 로우샷 전이는 인스턴스 부족 클래스의 크기에서 인스턴스가 풍부한 클래스의 크기를 빼서 이 문제를 어느 정도 완화할 수 있다. 불균형 τ-정규화(RELATIN) 프레임 워크 손실이 있는 제안된 정규화된 로우샷 주의 전달은 아래의 수학식 9와 같이 표현된다.
[수학식 9]
Figure pat00037
LRELATIN은 L(porig, y)가 표준 손실, Att()는 주의도 정규화, JS()는 Jensen-Shannon 발산 손실, LST()는 로우샷 전이 정규화를 나타내는 총 손실을 나타낸다.
도 3은 본 발명에 따른 불균형 τ-정규화(RELATIN)를 사용하여 정규화된 로우샷 전송을 보여주는 도면이다.
도 3을 참조하면, 본 발명은 층간 특징 맵들을 추출하여 연쇄(concatenate)시킨 후, 주목도 지도 규제기(Attention Map Regularizer)를 이용하여, 여러 가지 규제기 및 데이터 증가법 전략들을 이용한 기반 모델을 학습시켜 성능이 뛰어난 두 개의 분류기를 선택한다.
불균형 타우-정규화로 두 개의 분리 분류기를 학습시키고, 매니샷(many-shot) 클래스의 지식을 로우샷(Low-shot) 클래스로의 전이를 통하여 적은 데이터를 가진 글자에 대해서도 인식이 가능한 최종 분류기를 통해 입력받은 한자 이미지를 판별하여 해당 이미지의 한자 종류를 표현한다.
도 4는 본 발명의 일 실시예에 따른 API 호출 정당성의 자동검증 방법의 흐름도이다.
본 실시예에 따른 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법은, 도 2의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 2의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.
또한, 본 실시예에 따른 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법은 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이를 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.
본 발명은 전통기록물에 기록된 한자 글자를 효과적으로 인식할 수 있는 기술이다. 본 발명은 불균형 타우-정규화 프레임워크를 이용한 통합적 규제된 로우샷(Low-shot) 집중도 전이학습(RELATIN)을 이용한다.
또한, 주목도 지도 규제기(Attention Map Regularizer) 및 타우-정규화된 분리 분류기를 이용하여 최종적으로 한자를 인식한다. 본 발명에서 제안한 정규화 방법을 통해 얼룩 등의 전통기록물의 손상 및 다양한 필체 등의 문제가 있더라도 효과적으로 한자를 구분할 수 있다. 또한, 다양한 데이터 증감법 및 전략들(SD, Augmix, Mixup, Label- smoothing, Dropblock)을 이용하여 적은 양의 데이터에 대해서도 학습하도록 한다.
도 4를 참조하면, 본 실시예에 따른 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법은, 입력 받은 낱개의 한자 이미지를 복수개의 이미지 분류 모델들을 기초로 정규화(regularization) 및 데이터 증가법(augmentation)을 적용하여 한자 초서를 학습한다(단계 S10).
이 단계에서, Dropblock, Label-Smoothing, Mixip, Auto-augmix, Augmix 등의 다양한 규격화(regularization) 및 데이터 증가법(augmentation)을 적용하여 학습시킬 수 있다.
일 실시예에서, ResNeXt-50, Xception, ResNeXt-101, Inception, ResNet-101 및 Inception-V3) 중 적어도 하나의 이미지 분류 모델을 사용할 수 있으나, 알려진 어떠한 분류 모델도 사용 가능하다.
이미지 분류 모델 별로 각 층의 특징 맵을 연쇄(concatenate)하여 주목도 맵을 정규화한다(단계 S20).
주목도 맵을 정규화 단계는 학습된 네트워크의 파라미터를 사용하여 타겟 네트워크의 파라미터를 추정하는 단계를 포함할 수 있다.
복수개의 이미지 분류 모델들 중 불균형 타우-정규화가 적용된 적어도 두 개의 분류 모델을 선택하여 정규화 학습한다(단계 S30).
예를 들어, 타우-정규화가 적용된 최적의 성능을 보이는 두 개의 분리된 분류 모델 ResNet-101 및 Inception-V3을 선택할 수 있다.
적어도 두 개의 분류 모델의 네트워크에서 획득한 특징 맵 사이의 거리를 추출하고, 추출된 특징 맵 사이의 거리에 특징의 주목도에 따른 가중치를 적용하여 거리를 계산할 수 있다. 또한, 결정 경계의 불균형을 정류하기 위해 분류 가중치를 스케일링하는 단계를 더 포함할 수 있다.
정규화 학습을 기초로 매니샷(many-shot)의 데이터로부터 로우샷(low-shot) 데이터로 로우샷 지식 전이를 수행한다(단계 S40).
매니샷의 풍부한 데이터의 글자들로부터 로우샷으로의 부족한 데이터의 글자로의 지식 전이를 통하여 적은 데이터를 가진 글자에 대해서도 인식하도록 하였고, 가장 성능이 뛰어난 분류 모델을 택하였다.
입력 받은 한자 이미지를 로우샷 지식 전이를 이용하여 분류한다(단계 S50). 최종적으로 인식된 한자의 종류를 사용자에게 출력한다.
본 발명은 층간 특징 맵들을 추출하여 연쇄(concatenate)시킨 후, 주목도 지도 규제기(Attention Map Regularizer)를 이용하여, 여러 가지 규제기 및 데이터 증가법 전략들을 이용한 기반 모델을 학습시켜 성능이 뛰어난 두 개의 분류기를 선택한다.
불균형 타우-정규화로 두 개의 분리 분류기를 학습시키고, 매니샷(many-shot) 클래스의 지식을 로우샷(Low-shot) 클래스로의 전이를 통하여 적은 데이터를 가진 글자에 대해서도 인식이 가능한 최종 분류기를 통해 입력받은 한자 이미지를 판별하여 해당 이미지의 한자 종류를 표현한다.
이와 같은, 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
본 발명은 고문서를 다루는 모든 연구 분야 및 실생활에서 상용 가능하다. 현재 필기체 형식의 분석되지 않은 대용량의 고문서를 해독 가능한 전문가의 수는 줄어들고 있으며, 그 인력 양성에도 상당한 시간을 요구한다. 하지만, 위와 같은 모델의 도움으로 고문서 이미지들에 대한 빠르고 정확한 인식 후 텍스트로의 처리가 가능하며, 이는 비단 국내 사료뿐만이 아닌 한자 문화권 내 모든 고문서에 적용 가능하다는 시장성이 내제되어 있다.
또한, 전문가를 고용하기 힘든 일반인들도 소유하고 있는 고문서나 고서적에 대한 조사에 이용할 수 있어 숨겨진 문화재에 대한 가치 발굴 또한 가능하고 볼 수 있다. 나아가, 해당 기술은 다양한 손 글씨 데이터에 대해 적은 데이터 및 다양하게 변질된 글자 이미지에 대해서도 인식할 수 있어, 광범위한 분야에서의 연구에 활용 가능하다.
1: 한자 인식을 위한 시스템
10: 인식부
30: 입력부
50: 출력부
110: 학습부
130: 주의 지도 정규화부
150: 불균형 타우 정규화 학습부
170: 로우샷 전이부
190: 한자 인식부

Claims (13)

  1. 입력 받은 낱개의 한자 이미지를 복수개의 이미지 분류 모델들을 기초로 정규화(regularization) 및 데이터 증가법(augmentation)을 적용하여 한자 초서를 학습하는 단계;
    이미지 분류 모델 별로 각 층의 특징 맵을 연쇄(concatenate)하여 주목도 맵을 정규화하는 단계;
    복수개의 이미지 분류 모델들 중 불균형 타우-정규화가 적용된 적어도 두 개의 분류 모델을 선택하여 정규화 학습하는 단계;
    정규화 학습을 기초로 매니샷(many-shot)의 데이터로부터 로우샷(low-shot) 데이터로 로우샷 지식 전이를 수행하는 단계; 및
    입력 받은 한자 이미지를 로우샷 지식 전이를 이용하여 분류하는 단계;를 포함하는, 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법.
  2. 제1항에 있어서, 상기 주목도 맵을 정규화하는 단계는,
    학습된 네트워크의 파라미터를 사용하여 타겟 네트워크의 파라미터를 추정하는 단계;를 포함하는, 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법.
  3. 제1항에 있어서, 상기 적어도 두 개의 분류 모델을 선택하여 정규화 학습하는 단계는,
    적어도 두 개의 분류 모델의 네트워크에서 획득한 특징 맵 사이의 거리를 추출하는 단계; 및
    추출된 특징 맵 사이의 거리에 특징의 주목도에 따른 가중치를 적용하여 거리를 계산하는 단계;를 포함하는, 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법.
  4. 제3항에 있어서, 상기 적어도 두 개의 분류 모델을 선택하여 정규화 학습하는 단계는,
    결정 경계의 불균형을 정류하기 위해 분류 가중치를 스케일링하는 단계;를 더 포함하는, 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법.
  5. 제1항에 있어서, 상기 한자 초서를 학습하는 단계는,
    ResNeXt-50, Xception, ResNeXt-101, Inception, ResNet-101 및 Inception-V3) 중 적어도 하나의 이미지 분류 모델을 사용하는, 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법.
  6. 제1항에 있어서, 상기 적어도 두 개의 분류 모델을 선택하여 정규화 학습하는 단계는,
    분리된 ResNet-101 및 Inception-V3의 분류 모델을 선택하는, 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법.
  7. 제1항 내지 제6항 중 어느 하나의 항에 따른 상기 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
  8. 입력 받은 낱개의 한자 이미지를 복수개의 이미지 분류 모델들을 기초로 정규화(regularization) 및 데이터 증가법(augmentation)을 적용하여 한자 초서를 학습하는 학습부;
    이미지 분류 모델 별로 각 층의 특징 맵을 연쇄(concatenate)하여 주목도 맵을 정규화하는 주의 지도 정규화부;
    복수개의 이미지 분류 모델들 중 불균형 타우 정규화가 적용된 적어도 두 개의 분류 모델을 선택하여 정규화 학습하는 불균형 타우 정규화 학습부;
    정규화 학습을 기초로 매니샷(many-shot)의 데이터로부터 로우샷(low-shot) 데이터로 로우샷 지식 전이를 수행하는 로우샷 전이부; 및
    입력 받은 한자 이미지를 로우샷 지식 전이를 이용하여 분류하는 한자 인식부;를 포함하는, 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 장치.
  9. 제8항에 있어서, 상기 주의 지도 정규화부는,
    학습된 네트워크의 파라미터를 사용하여 타겟 네트워크의 파라미터를 추정하는, 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 장치.
  10. 제8항에 있어서, 상기 불균형 타우 정규화 학습부는,
    적어도 두 개의 분류 모델의 네트워크에서 획득한 특징 맵 사이의 거리를 추출하고, 특징의 주목도에 따른 가중치를 적용하여 거리를 계산하는, 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 장치.
  11. 제10항에 있어서, 상기 불균형 타우 정규화 학습부는,
    결정 경계의 불균형을 정류하기 위해 분류 가중치를 스케일링하는, 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 장치.
  12. 제8항에 있어서, 상기 학습부는,
    ResNeXt-50, Xception, ResNeXt-101, Inception, ResNet-101 및 Inception-V3) 중 적어도 하나의 이미지 분류 모델을 사용하는, 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 장치.
  13. 제8항에 있어서, 상기 불균형 타우 정규화 학습부는,
    분리된 ResNet-101 및 Inception-V3의 분류 모델을 선택하는, 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 장치.
KR1020210013300A 2021-01-29 2021-01-29 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법, 이를 수행하기 위한 기록 매체 및 장치 KR102636135B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210013300A KR102636135B1 (ko) 2021-01-29 2021-01-29 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법, 이를 수행하기 위한 기록 매체 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210013300A KR102636135B1 (ko) 2021-01-29 2021-01-29 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법, 이를 수행하기 위한 기록 매체 및 장치

Publications (2)

Publication Number Publication Date
KR20220109821A true KR20220109821A (ko) 2022-08-05
KR102636135B1 KR102636135B1 (ko) 2024-02-14

Family

ID=82826431

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210013300A KR102636135B1 (ko) 2021-01-29 2021-01-29 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법, 이를 수행하기 위한 기록 매체 및 장치

Country Status (1)

Country Link
KR (1) KR102636135B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190103088A (ko) 2019-08-15 2019-09-04 엘지전자 주식회사 연합학습을 통한 단말의 명함을 인식하는 방법 및 이를 위한 장치
US10671892B1 (en) 2019-03-31 2020-06-02 Hyper Labs, Inc. Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data
KR20200092487A (ko) 2019-01-10 2020-08-04 한국전자통신연구원 다중 뉴럴 네트워크를 이용한 문자 인식을 위한 장치 및 그것의 동작 방법
KR20210001817A (ko) * 2019-06-27 2021-01-06 경북대학교 산학협력단 한자인식시스템 및 이를 이용한 한자인식방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200092487A (ko) 2019-01-10 2020-08-04 한국전자통신연구원 다중 뉴럴 네트워크를 이용한 문자 인식을 위한 장치 및 그것의 동작 방법
US10671892B1 (en) 2019-03-31 2020-06-02 Hyper Labs, Inc. Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data
KR20210001817A (ko) * 2019-06-27 2021-01-06 경북대학교 산학협력단 한자인식시스템 및 이를 이용한 한자인식방법
KR20190103088A (ko) 2019-08-15 2019-09-04 엘지전자 주식회사 연합학습을 통한 단말의 명함을 인식하는 방법 및 이를 위한 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bingyi Kang 외 6명, "Decoupling Representation and Classifier for Long-Tailed Recognition", arXiv:1910.09217, pp.1-16(2020.02.19.) 1부.* *
Yujun Zhou 외 5명, "Hybrid Attention Networks for Chinese Short Text Classification", Computación y Sistemas, Vol.21, pp.759-769(2017.02.28.) 1부.* *

Also Published As

Publication number Publication date
KR102636135B1 (ko) 2024-02-14

Similar Documents

Publication Publication Date Title
Borisyuk et al. Rosetta: Large scale system for text detection and recognition in images
Lee et al. Region-based discriminative feature pooling for scene text recognition
Rivard et al. Multi-feature extraction and selection in writer-independent off-line signature verification
US8606010B2 (en) Identifying text pixels in scanned images
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
CN106570521B (zh) 多语言场景字符识别方法及识别系统
CN107943856A (zh) 一种基于扩充标记样本的文本分类方法及系统
CN107025452A (zh) 图像识别方法和图像识别设备
CN108133224B (zh) 用于评估分类任务复杂度的方法
Calvo-Zaragoza et al. Music staff removal with supervised pixel classification
CN105893952A (zh) 基于pca方法的手写签名识别方法
JP2006127446A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
CN104899551B (zh) 一种表单图像分类方法
Azizi et al. From static to dynamic ensemble of classifiers selection: Application to Arabic handwritten recognition
CN112070116A (zh) 一种基于支持向量机的艺术画作自动分类系统及方法
Jubair et al. A simplified method for handwritten character recognition from document image
KR102636135B1 (ko) 불균형 초서 인식을 위한 주목도를 이용한 로우샷 전이 방법, 이를 수행하기 위한 기록 매체 및 장치
CN115273100A (zh) 一种基于语义引导鉴别器的半监督汉字图像生成方法
Yamina et al. Printed Arabic optical character recognition using support vector machine
Batista et al. Dynamic ensemble selection for off-line signature verification
CN113158745A (zh) 一种基于多特征算子的乱码文档图片识别方法及系统
Sun et al. Sample hardness guided softmax loss for face recognition
Retsinas et al. Historical typewritten document recognition using minimal user interaction
Aniket et al. Handwritten Gujarati script recognition with image processing and deep learning
Vidal-Gorène et al. Synthetic lines from historical manuscripts: an experiment using GAN and style transfer

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant