KR102394314B1 - 고문서 이미지 광학 문자 판독 장치 및 방법 - Google Patents

고문서 이미지 광학 문자 판독 장치 및 방법 Download PDF

Info

Publication number
KR102394314B1
KR102394314B1 KR1020200027253A KR20200027253A KR102394314B1 KR 102394314 B1 KR102394314 B1 KR 102394314B1 KR 1020200027253 A KR1020200027253 A KR 1020200027253A KR 20200027253 A KR20200027253 A KR 20200027253A KR 102394314 B1 KR102394314 B1 KR 102394314B1
Authority
KR
South Korea
Prior art keywords
document image
chinese character
chinese
ancient
image
Prior art date
Application number
KR1020200027253A
Other languages
English (en)
Other versions
KR20210001890A (ko
Inventor
장길진
이민호
이장원
Original Assignee
경북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경북대학교 산학협력단 filed Critical 경북대학교 산학협력단
Publication of KR20210001890A publication Critical patent/KR20210001890A/ko
Application granted granted Critical
Publication of KR102394314B1 publication Critical patent/KR102394314B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

합성곱 신경망에 의한 고문서 이미지 상의 한자 존재 예측 결과와 클래스 활성 매핑에 의한 한자 위치 예측 결과를 조합하여 고문서 이미지를 한자 디지털 텍스트로 고속 변환할 수 있는 고문서 이미지 광학 문자 판독 장치 및 방법, 기록 매체가 개시된다. 본 발명의 실시예에 따른 고문서 이미지 광학 문자 판독 방법은, 합성곱 신경망의 합성곱 처리부에 의해, 판독 대상의 고문서 이미지를 합성곱 처리하는 단계; 상기 합성곱 처리부에 의해 생성되는 마지막 합성곱 층의 특징 맵을 전역 평균 풀링하는 단계; 상기 특징 맵으로부터 전역 평균 풀링된 값들과 상기 합성곱 신경망의 완전 연결층의 가중치를 누적합 연산하여 한자의 존재 확률을 예측하는 단계; 클래스 활성 매핑부에 의해, 상기 고문서 이미지 상에 존재 확률이 기준값 이상인 한자에 대해 클래스 활성 매핑을 수행하여 한자의 위치를 예측하는 단계; 및 결합부에 의해, 상기 기준값 이상의 존재 확률을 가지는 한자들과 상기 클래스 활성 매핑에 의해 예측된 한자의 위치를 결합하여 상기 고문서 이미지를 한문 디지털 텍스트로 변환하는 단계를 포함한다.

Description

고문서 이미지 광학 문자 판독 장치 및 방법{Appratus and method for optical character recognition of traditional documents}
본 발명은 고문서 이미지 광학 문자 판독 장치 및 방법에 관한 것으로, 합성곱 신경망에 의한 고문서 이미지 상의 한자 존재 예측 결과와 클래스 활성 매핑에 의한 한자 위치 예측 결과를 조합하여 고문서 이미지를 한자 디지털 텍스트로 고속 변환할 수 있는 고문서 이미지 광학 문자 판독 장치 및 방법에 관한 것이다.
한자로 쓰인 고문서 이미지를 디지털 텍스트로 변환함으로써 한자에 대해 전문적 지식이 없는 일반인도 고문서의 의미를 파악하는데 많은 도움을 줄 수 있다. 조선왕조실록과 같은 기록물은 국가사업을 통해 디지털 텍스트화 및 현대 한국어로 번역이 완료된 상태이며, 이를 통해 영화 및 드라마 등 많은 문화적 콘텐츠가 생성되고, 큰 가치를 창출하였다. 그러나 조선왕조실록 외에 일반 민간이 작성한 일기와 편지 등 많은 고문서가 남아있다. 이 한자로 쓰인 고문서들은 여전히 텍스트화 및 번역이 되지 못한 경우가 많으며, 이를 분석하기 위한 전문가도 매우 부족한 실정이다.
최근 심화 학습 기반 인공지능 기술의 발달로 다수의 중국어 광학 문자 판독 모델이 제안되었다. 하지만 현대 중국어와 붓으로 쓰인 한국의 한자는 그 형태가 다른 이유로 이 모델들은 한국의 고문서에 적용하기 어려운 경우가 많다. 또한, 모델을 심화 학습시키기 위해서는 방대한 양의 학습 자료가 필요하지만, 심화 학습 을 위한 한국 고문서 데이터베이스가 구축되어 있지 않아 광학 문자 판독의 정확성이 떨어지는 문제가 존재한다.
본 발명은 합성곱 신경망에 의한 고문서 이미지 상의 한자 존재 예측 결과와 클래스 활성 매핑에 의한 한자 위치 예측 결과를 조합하여 고문서 이미지를 한자 디지털 텍스트로 고속 변환할 수 있는 고문서 이미지 광학 문자 판독 장치 및 방법, 기록 매체를 제공하기 위한 것이다.
또한, 본 발명은 개별 한자 이미지와 고문서 배경이미지를 활용하여 가상의 고문서 이미지를 생성하고 이를 합성곱 신경망의 학습에 사용함으로써 고문서 이미지의 광학 문자 판독의 정확성을 높일 수 있는 고문서 이미지 광학 문자 판독 장치 및 방법, 기록 매체를 제공하기 위한 것이다.
본 발명이 해결하고자 하는 과제는 이상에서 언급된 과제로 제한되지 않는다. 언급되지 않은 다른 기술적 과제들은 이하의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 고문서 이미지 광학 문자 판독 방법은 합성곱 신경망의 합성곱 처리부에 의해, 판독 대상의 고문서 이미지를 합성곱 처리하는 단계; 상기 합성곱 처리부에 의해 생성되는 마지막 합성곱 층의 특징 맵을 전역 평균 풀링하는 단계; 상기 특징 맵으로부터 전역 평균 풀링된 값들과 상기 합성곱 신경망의 완전 연결층의 가중치를 누적합 연산하여 한자의 존재 확률을 예측하는 단계; 클래스 활성 매핑부에 의해, 상기 고문서 이미지 상에 존재 확률이 기준값 이상인 한자에 대해 클래스 활성 매핑을 수행하여 한자의 위치를 예측하는 단계; 및 결합부에 의해, 상기 기준값 이상의 존재 확률을 가지는 한자들과 상기 클래스 활성 매핑에 의해 예측된 한자의 위치를 결합하여 상기 고문서 이미지를 한문 디지털 텍스트로 변환하는 단계를 포함한다.
본 발명의 일 실시예에 따른 고문서 이미지 광학 문자 판독 방법은, 훈련데이터 생성부에 의해, 개별 한자 이미지를 고문서 배경이미지에 합성하여 가상 고문서 이미지를 생성하는 단계; 및 학습부에 의해, 상기 가상 고문서 이미지를 포함하는 훈련데이터를 이용하여 상기 합성곱 신경망을 학습하는 단계를 더 포함할 수 있다.
상기 가상 고문서 이미지를 생성하는 단계는, 개별 한자 이미지의 배경을 제거하는 단계; 및 배경 제거된 개별 한자 이미지를 고문서 배경이미지에 임의로 위치시켜 상기 가상 고문서 이미지를 생성하는 단계를 포함할 수 있다.
상기 한자의 위치를 예측하는 단계는, 상기 마지막 합성곱 층의 특징 맵들과 상기 한자와 관련된 가중치들을 누적합 처리하여 클래스 활성 맵을 생성하는 단계; 및 상기 클래스 활성 맵에서 한자의 위치를 분석하여 상기 한자의 위치를 예측하는 단계를 포함할 수 있다.
상기 합성곱 처리하는 단계는, 상기 고문서 이미지를 기준 합성곱 영상을 이용하여 합성곱 처리한 후 최대 풀링 처리하는 과정을 복수회 반복하여 특징 맵의 개수를 증가시키는 단계; 및 상기 특징 맵의 개수를 유지하면서 상기 특징 맵을 복수회 합성곱 처리하여 상기 마지막 합성곱 층의 특징 맵을 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 고문서 이미지 광학 문자 판독 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체가 제공된다.
본 발명의 일 실시예에 따른 고문서 이미지 광학 문자 판독 장치는, 판독 대상의 고문서 이미지 상에 존재하는 한자와 상기 한자의 위치를 예측하는 합성곱 신경망; 및 상기 한자와 상기 한자의 위치를 결합하여 상기 고문서 이미지를 상기 한문 디지털 텍스트로 변환하는 결합부를 포함한다.
상기 합성곱 신경망은, 상기 판독 대상의 고문서 이미지를 합성곱 처리하는 합성곱 처리부; 상기 합성곱 처리부에 의해 생성되는 마지막 합성곱 층의 특징 맵을 전역 평균 풀링하는 전역 평균 풀링부; 상기 특징 맵으로부터 전역 평균 풀링된 값들에 가중치들을 누적합 연산하여 한자의 존재 확률을 예측하는 완전 연결층; 및 상기 고문서 이미지 상에 존재 확률이 기준값 이상인 한자에 대해 클래스 활성 매핑을 수행하여 한자의 위치를 예측하는 클래스 활성 매핑부를 포함한다.
상기 결합부는, 상기 기준값 이상의 존재 확률을 가지는 한자들과 상기 클래스 활성 매핑에 의해 예측된 한자의 위치를 결합하여 상기 고문서 이미지를 한문 디지털 텍스트로 변환한다.
본 발명의 일 실시예에 따른 고문서 이미지 광학 문자 판독 장치는, 개별 한자 이미지를 고문서 배경이미지에 합성하여 가상 고문서 이미지를 생성하는 훈련데이터 생성부; 및 상기 가상 고문서 이미지를 포함하는 훈련데이터를 이용하여 상기 합성곱 신경망을 학습하는 학습부를 더 포함할 수 있다.
상기 훈련데이터 생성부는, 개별 한자 이미지의 배경을 제거하고; 그리고 배경 제거된 개별 한자 이미지를 고문서 배경이미지에 임의로 위치시켜 상기 가상 고문서 이미지를 생성하도록 구성될 수 있다.
상기 클래스 활성 매핑부는, 상기 마지막 합성곱 층의 특징 맵들과 상기 한자와 관련된 가중치들을 누적합 처리하여 클래스 활성 맵을 생성하고; 그리고 상기 클래스 활성 맵에서 한자의 위치를 분석하여 상기 한자의 위치를 예측하도록 구성될 수 있다.
상기 합성곱 처리부는, 상기 고문서 이미지를 기준 합성곱 영상을 이용하여 합성곱 처리한 후 최대 풀링 처리하는 과정을 복수회 반복하여 특징 맵의 개수를 증가시키고; 그리고 상기 특징 맵의 개수를 유지하면서 상기 특징 맵을 복수회 합성곱 처리하여 상기 마지막 합성곱 층의 특징 맵을 생성하도록 구성될 수 있다.
본 발명의 실시예에 의하면, 합성곱 신경망에 의한 고문서 이미지 상의 한자 존재 예측 결과와 클래스 활성 매핑에 의한 한자 위치 예측 결과를 조합하여 고문서 이미지를 한자 디지털 텍스트로 고속 변환할 수 있는 고문서 이미지 광학 문자 판독 장치 및 방법, 기록 매체가 제공된다.
또한, 본 발명의 실시예에 의하면, 개별 한자 이미지와 고문서 배경이미지를 활용하여 가상의 고문서 이미지를 생성하고 이를 합성곱 신경망의 학습에 사용함으로써 고문서 이미지의 광학 문자 판독의 정확성을 높일 수 있는 고문서 이미지 광학 문자 판독 장치 및 방법, 기록 매체가 제공된다.
본 발명의 효과는 상술한 효과들로 제한되지 않는다. 언급되지 않은 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.
도 1은 본 발명의 실시예에 따른 고문서 이미지 광학 문자 판독 방법의 순서도이다.
도 2는 본 발명의 실시예에 따른 고문서 이미지 광학 문자 판독 장치의 구성도이다.
도 3은 본 발명의 실시예에 따른 고문서 이미지 광학 문자 판독 장치 및 방법을 설명하기 위한 개념도이다.
도 4 내지 도 7은 도 1의 단계 S10에 따라 가상 고문서 이미지를 생성하는 과정을 설명하기 위한 예시도이다.
도 8은 본 발명의 실시예에 따른 고문서 이미지 광학 문자 판독 장치를 구성하는 합성곱 신경망의 기능을 설명하기 위한 개념도이다.
도 9는 도 1에 도시된 단계 S30의 구체적인 순서도이다.
도 10은 본 발명의 실시예에 따른 고문서 이미지 광학 문자 판독 장치를 구성하는 클래스 활성 매핑부의 기능을 설명하기 위한 예시도이다.
본 발명의 다른 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술하는 실시예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되지 않으며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 만일 정의되지 않더라도, 여기서 사용되는 모든 용어들(기술 혹은 과학 용어들을 포함)은 이 발명이 속한 종래 기술에서 보편적 기술에 의해 일반적으로 수용되는 것과 동일한 의미를 갖는다. 공지된 구성에 대한 일반적인 설명은 본 발명의 요지를 흐리지 않기 위해 생략될 수 있다. 본 발명의 도면에서 동일하거나 상응하는 구성에 대하여는 가급적 동일한 도면부호가 사용된다. 본 발명의 이해를 돕기 위하여, 도면에서 일부 구성은 다소 과장되거나 축소되어 도시될 수 있다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다", "가지다" 또는 "구비하다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서 전체에서 사용되는 '~부'는 적어도 하나의 기능이나 동작을 처리하는 단위로서, 예를 들어 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미할 수 있다. 그렇지만 '~부'가 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함할 수 있다. 구성요소와 '~부'에서 제공하는 기능은 복수의 구성요소 및 '~부'들에 의해 분리되어 수행될 수도 있고, 다른 추가적인 구성요소와 통합될 수도 있다.
본 발명의 일 실시예에 따른 고문서 이미지 광학 문자 판독 장치 및 방법은 한문으로 쓰인 고문서 이미지를 디지털 텍스트로 변환하기 위한 것으로, 판독 대상의 고문서 이미지를 합성곱 처리하고, 마지막 합성곱 층의 특징 맵을 전역 평균 풀링하고, 전역 평균 풀링된 값들과 합성곱 신경망의 완전 연결층의 가중치를 누적합 연산하여 한자의 존재 확률을 예측하고, 존재 확률이 기준값 이상인 한자에 대해 클래스 활성 매핑을 수행하여 한자의 위치를 예측한 후, 기준값 이상의 존재 확률을 가지는 한자들과 상기 한자들의 예측된 위치를 결합하여 고문서 이미지를 한문 디지털 텍스트로 변환할 수 있다.
본 발명의 실시예에 의하면, 합성곱 신경망을 이용하여 한자로 쓰인 고문서 이미지를 한자 디지털 텍스트로 고속으로 변환할 수 있다. 본 발명의 실시예에 의하면, 1장의 고문서 이미지를 처리하는데 소요되는 시간이 1초 미만으로 단축될 수 있으며, 기존의 한자 인식 방식 보다 빠른 속도로 고문서 이미지에 대해 광학 문자 판독이 가능하다.
또한, 기존의 신경망 모델은 모델 학습을 위해 방대한 학습데이터를 필요로 하였으며, 적은 양의 데이터베이스로 좋은 성능을 기대하기 힘들었으나, 본 발명의 실시예에 의하면, 합성곱 신경망 모델을 학습하기 위해 실제 고문서 이미지 데이터베이스만을 사용하는 것이 아니라, 가상의 고문서 이미지를 생성하여 학습에 사용함으로써 광학 문자 판독의 정확성을 높일 수 있다.
도 1은 본 발명의 실시예에 따른 고문서 이미지 광학 문자 판독 방법의 순서도이다. 도 2는 본 발명의 실시예에 따른 고문서 이미지 광학 문자 판독 장치의 구성도이다. 도 3은 본 발명의 실시예에 따른 고문서 이미지 광학 문자 판독 장치 및 방법을 설명하기 위한 개념도이다.
도 1 내지 도 3을 참조하면, 본 발명의 실시예에 따른 고문서 이미지 광학 문자 판독 장치(100)는 판독 대상의 고문서 이미지(30)를 한문 디지털 텍스트(60)로 변환하기 위한 것으로, 훈련 데이터 생성부(110), 학습부(120), 합성곱 신경망(130), 입력부(140), 결합부(150) 및 출력부(160)를 포함할 수 있다.
판독 대상의 고문서 이미지(30)를 한문 디지털 텍스트(60)로 변환하기에 앞서, 먼저 훈련 데이터 생성부(110)에 의해 가상 고문서 이미지를 생성한 후(단계 S10), 학습부(120)에 의해 가상 고문서 이미지(10)를 포함하는 훈련데이터를 이용하여 합성곱 신경망을 학습하는 과정을 수행할 수 있다(단계 S20).
도 4 내지 도 7은 도 1의 단계 S10에 따라 가상 고문서 이미지를 생성하는 과정을 설명하기 위한 예시도이다. 도 1 내지 도 7을 참조하면, 단계 S10에서, 훈련데이터 생성부(110)는 개별 한자 이미지를 고문서 배경이미지에 합성하여 가상 고문서 이미지(10)를 생성할 수 있다.
먼저, 훈련데이터 생성부(110)는 도 4에 도시된 바와 같이 개별 한자 이미지의 배경을 제거할 수 있다. 실시예에서, 훈련데이터 생성부(110)는 밝기 값 필터링(예를 들어, "brightness=max(R,G,B)" 함수), 적응적 히스토그램 평활화(adaptive histogram equalization) 및/또는 Otsu's 이진화 등에 의해 개별 한자 이미지의 배경을 제거할 수 있다.
훈련데이터 생성부(110)는 도 5에 도시된 바와 같이 배경이 제거된 개별 한자 이미지를 고문서 배경이미지에 임의로 위치시켜 도 6에 도시된 바와 같은 가상 고문서 이미지(10)를 생성할 수 있다. 훈련데이터는 가상 고문서 이미지(10)에 포함된 한자의 레이블 정보와, 가상 고문서 이미지(10) 상의 한자의 위치 정보를 포함할 수 있다.
훈련데이터 생성부(110)는 도 7에 도시된 바와 같이 다양한 크기의 가상 고문서 이미지를 생성할 수 있으며, 합성곱 신경망(130)의 학습 진행에 따라 점차 높은 복잡도(complexity)를 가지는 가상 고문서 이미지들을 생성하여 합성곱 신경망(130)의 학습 수준을 단계적으로 높일 수 있다.
다시 도 1 내지 도 3을 참조하면, 단계 S20에서 학습부(120)는 훈련데이터 생성부(110)에 의해 생성된 가상 고문서 이미지(10)를 포함하는 훈련데이터를 이용하여 합성곱 신경망(130)을 학습할 수 있다.
가상 고문서 이미지에 존재하는 한자의 레이블을 1로 표현하고, 가상 고문서 이미지에 존재하지 않는 한자는 0으로 표현하는 멀티-핫 코딩(Multi-hot coding)으로 가상 고문서 이미지의 정답 레이블(20)이 작성되면, 학습부(120)는 정답 레이블을 이용하여 합성곱 신경망(130)을 학습할 수 있다.
합성곱 신경망(130)은 판독 대상의 고문서 이미지(30) 상에 존재하는 한자와 한자의 위치를 예측할 수 있다. 합성곱 신경망(130)은 합성곱 처리부(132), 전역 평균 풀링부(134), 완전 연결층(136) 및 클래스 활성 매핑부(138)를 포함할 수 있다.
훈련데이터를 이용하여 합성곱 신경망(130)의 학습이 완료되고, 입력부(140)에 의해 판독 대상의 고문서 이미지(30)가 입력되면, 합성곱 처리부(132)는 고문서 이미지(30)에 존재하는 한자들을 판독하기 위해, 고문서 이미지(30)를 합성곱(convolution) 처리할 수 있다(단계 S30).
도 8은 본 발명의 실시예에 따른 고문서 이미지 광학 문자 판독 장치를 구성하는 합성곱 신경망의 기능을 설명하기 위한 개념도이다. 도 9는 도 1에 도시된 단계 S30의 구체적인 순서도이다. 도 1 내지 도 3, 도 8 및 도 9를 참조하면, 단계 S30에서 합성곱 처리부(132)는 판독 대상의 고문서 이미지를 설정된 기준 합성곱 영상(합성곱 커널 영상)을 이용하여 합성곱(convolution) 및 활성 함수(activation function; leaky_relu) 처리한 후 최대 풀링(Max pooling) 처리하는 과정을 복수회 반복한 후(단계 S301 내지 S308), 특징 맵의 개수를 유지하면서 특징 맵을 복수회 합성곱 처리하는 과정(단계 S309 내지 S314)을 통해 마지막 합성곱 층의 특징 맵을 생성할 수 있다.
고문서 이미지에 대한 합성곱 처리, 활성 함수 처리 및 최대 풀링 처리를 복수회 반복함에 따라, 특징 맵의 개수는 점차 증가하게 된다. 실시예에서 활성 함수 처리는 하기의 활성 함수 수식에 따라 수행될 수 있으나, 이에 제한되는 것은 아니다.
[활성 함수 수식]
Figure 112021118665688-pat00001
상기 활성 함수 수식에서, x는 특징 맵의 픽셀 값, y는 활성 함수의 출력값을 나타낸다. 도 9의 예에서는 10개의 합성곱 층과 4개의 서브샘플링 층을 계층적으로 쌓은 합성곱 신경망이 사용되고, 3×3 크기의 기준 합성곱 영상을 사용하여 5번의 합성곱 처리와 활성 함수 처리 및 최대 풀링 처리를 반복하여 총 1024개의 특징 맵이 생성되고, 2×2 크기 단위로 최대 풀링이 수행되었으나, 합성곱 신경망의 합성곱 층 및/또는 서브샘플링 층의 개수, 합성곱 처리/최대 풀링 처리의 반복횟수, 기준 합성곱 영상의 크기나 특징 맵의 개수, 최대 풀링 크기 단위 등은 이에 제한되지 않고 다양하게 변경될 수 있다.
합성곱 처리부(132)의 마지막 합성곱 층에서 출력되는 특징 맵은 전역 평균 풀링부(134)에 의해 전역 평균 풀링(GAP; Global Average Pooling) 처리될 수 있다(단계 S40). 전역 평균 풀링 처리된 값들의 개수는 마지막 합성곱 층에서 출력되는 특징 맵의 개수(예를 들어, 1024개)와 같을 수 있다.
합성곱 처리부(132)의 마지막 합성곱 층에서 출력되는 특징 맵으로부터 전역 평균 풀링된 값들은 합성곱 신경망(130)의 완전 연결층(Fully Connected layer)(136)의 입력층의 입력노드들에 각각 입력되고, 완전 연결층(136)의 가중치들과 누적합 연산될 수 있다(단계 S50).
단계 S50에서, 시그모이드 활성 함수(sigmoid activation function)를 가지는 완전 연결층(136)의 출력층에는 멀티 레이블 출력(Multi Label Output)(50)을 통해 한자들의 존재 확률이 출력되고 이로부터 고문서 이미지 상의 한자의 존재 확률을 예측할 수 있다. 멀티 레이블 출력(50)의 레이블 개수는 학습된 한자들의 개수와 동일할 수 있다. 고문서 이미지에 실제 존재하는 한자는 멀티 레이블 출력에 1에 가까운 확률 값으로 나타나고, 고문서 이미지에 존재하지 않는 한자는 멀티 레이블 출력에 0에 가까운 확률 값으로 나타나게 된다.
완전 연결층(136)으로부터 한자들의 존재 확률이 출력되면, 클래스 활성 매핑부(138)는 고문서 이미지 상에 존재한다고 판단된 한자들, 즉 고문서 이미지 상에 존재 확률이 기준값 이상인 한자들에 대해 각각 클래스 활성 매핑(CAM; Class Activation Mapping)을 수행하여 합성곱 신경망의 특징을 분석함으로써 각 한자의 위치를 예측할 수 있다(단계 S60).
도 10은 본 발명의 실시예에 따른 고문서 이미지 광학 문자 판독 장치를 구성하는 클래스 활성 매핑부의 기능을 설명하기 위한 예시도이다. 도 1 내지 도 3, 도 10을 참조하면, 클래스 활성 매핑부(138)는 합성곱 처리부(132)의 마지막 합성곱 층의 특징 맵들과 각 한자와 관련된 가중치들을 누적합 처리하여 클래스 활성 맵(Class Activation Map)(40)을 생성하고, 클래스 활성 맵(40)에서 각 한자의 위치를 분석하여 한자의 위치를 예측할 수 있다.
합성곱 신경망(130)의 합성곱 처리부(132)와 전역 평균 풀링부(134) 및 완전 연결층(136)에 의해 고문서 이미지에 존재하는 한자들이 예측되고, 클래스 활성 매핑부(138)에 의해 한자들의 위치가 예측되면, 결합부(150)는 기준값(예를 들어, 0.5) 이상의 존재 확률을 가지는 한자들과, 클래스 활성 매핑에 의해 예측된 각 한자의 위치의 예측 결과들을 조합하여 고문서 이미지를 한문 디지털 텍스트로 변환할 수 있다(단계 S70). 결합부(150)에 의해 변환된 한문 디지털 텍스트는 출력부(160)를 통해 출력될 수 있다.
본 발명의 실시예에 따라 합성곱 신경망을 학습한 후 고문서 이미지를 한문 디지털 텍스트로 변환한 결과, 0.9614의 평균 정확도(Average accuracy), 0.9249의 평균 정밀도(Average precision), 0.7399의 평균 재현율(Average recall), 0.8187의 평균 F1-스코어(Average F1-score; 정밀도와 재현율의 조화 평균)를 얻을 수 있었으며, 이러한 결과로부터 본 발명의 실시예에 의해 높은 성능으로 효율적으로 고문서 이미지를 한문 디지털 텍스트로 변환할 수 있음을 알 수 있다.
상술한 바와 같이, 본 발명의 실시예에 의하면, 합성곱 신경망을 이용하여 한자로 쓰인 고문서 이미지를 한자 디지털 텍스트로 고속으로 변환할 수 있다. 본 발명의 실시예에 의하면, 1장의 고문서 이미지를 처리하는데 소요되는 시간이 1초 미만으로 단축될 수 있으며, 기존의 한자 인식 방식 보다 빠른 속도로 고문서 이미지에 대해 광학 문자 판독이 가능하다.
또한, 기존의 신경망 모델은 모델 학습을 위해 방대한 학습데이터를 필요로 하였으며, 적은 양의 데이터베이스로 좋은 성능을 기대하기 힘들었으나, 본 발명의 실시예에 의하면, 합성곱 신경망 모델을 학습하기 위해 실제 고문서 이미지 데이터베이스만을 사용하는 것이 아니라, 가상의 고문서 이미지를 생성하여 학습에 사용함으로써 광학 문자 판독의 정확성을 높일 수 있다.
본 발명의 실시예에 따른 방법 중 적어도 일부는 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 SRAM(Static RAM), DRAM(Dynamic RAM), SDRAM(Synchronous DRAM) 등과 같은 휘발성 메모리, ROM(Read Only Memory), PROM(Programmable ROM), EPROM(Electrically Programmable ROM), EEPROM(Electrically Erasable and Programmable ROM), 플래시 메모리 장치, PRAM(Phase-change RAM), MRAM(Magnetic RAM), RRAM(Resistive RAM), FRAM(Ferroelectric RAM)과 같은 불휘발성 메모리, 플로피 디스크, 하드 디스크 또는 광학적 판독 매체 예를 들어 시디롬, 디브이디 등과 같은 형태의 저장매체일 수 있으나, 이에 제한되지는 않는다.
이상의 실시예들은 본 발명의 이해를 돕기 위하여 제시된 것으로, 본 발명의 범위를 제한하지 않으며, 이로부터 다양한 변형 가능한 실시예들도 본 발명의 범위에 속하는 것임을 이해하여야 한다. 본 발명의 보호범위는 청구범위의 기술적 사상에 의해 정해져야 할 것이며, 본 발명의 보호범위는 청구범위의 문언적 기재 그 자체로 한정되는 것이 아니라 실질적으로는 기술적 가치가 균등한 범주의 발명까지 미치는 것임을 이해하여야 한다.
10: 가상 고문서 이미지
20: 정답 레이블
30: 판독 대상의 고문서 이미지
40: 클래스 활성 맵
50: 멀티 레이블 출력
60: 한문 디지털 텍스트
100: 고문서 이미지 광학 문자 판독 장치
110: 훈련 데이터 생성부
120: 학습부
130: 합성곱 신경망
132: 합성곱 처리부
134: 전역 평균 풀링부
136: 완전 연결층
138: 클래스 활성 매핑부
140: 입력부
150: 결합부
160: 출력부

Claims (10)

  1. 합성곱 신경망의 합성곱 처리부에 의해, 판독 대상의 고문서 이미지를 합성곱 처리하는 단계;
    상기 합성곱 처리부에 의해 생성되는 마지막 합성곱 층의 특징 맵을 전역 평균 풀링하는 단계;
    상기 특징 맵으로부터 전역 평균 풀링된 값들과 상기 합성곱 신경망의 완전 연결층의 가중치를 누적합 연산하여 한자의 존재 확률을 예측하는 단계;
    클래스 활성 매핑부에 의해, 상기 고문서 이미지 상에 존재 확률이 기준값 이상인 한자에 대해 클래스 활성 매핑을 수행하여 한자의 위치를 예측하는 단계; 및
    결합부에 의해, 상기 기준값 이상의 존재 확률을 가지는 한자들과 상기 클래스 활성 매핑에 의해 예측된 한자의 위치를 결합하여 상기 고문서 이미지를 한문 디지털 텍스트로 변환하는 단계를 포함하는, 고문서 이미지 광학 문자 판독 방법.
  2. 제1항에 있어서,
    훈련데이터 생성부에 의해, 개별 한자 이미지를 고문서 배경이미지에 합성하여 가상 고문서 이미지를 생성하는 단계; 및
    학습부에 의해, 상기 가상 고문서 이미지를 포함하는 훈련데이터를 이용하여 상기 합성곱 신경망을 학습하는 단계를 더 포함하는, 고문서 이미지 광학 문자 판독 방법.
  3. 제2항에 있어서,
    상기 가상 고문서 이미지를 생성하는 단계는,
    개별 한자 이미지의 배경을 제거하는 단계; 및
    배경 제거된 개별 한자 이미지를 고문서 배경이미지에 임의로 위치시켜 상기 가상 고문서 이미지를 생성하는 단계를 포함하는, 고문서 이미지 광학 문자 판독 방법.
  4. 제1항에 있어서,
    상기 한자의 위치를 예측하는 단계는,
    상기 마지막 합성곱 층의 특징 맵들과 상기 한자와 관련된 가중치들을 누적합 처리하여 클래스 활성 맵을 생성하는 단계; 및
    상기 클래스 활성 맵에서 한자의 위치를 분석하여 상기 한자의 위치를 예측하는 단계를 포함하는, 고문서 이미지 광학 문자 판독 방법.
  5. 제1항에 있어서,
    상기 합성곱 처리하는 단계는,
    상기 고문서 이미지를 기준 합성곱 영상을 이용하여 합성곱 처리한 후 최대 풀링 처리하는 과정을 복수회 반복하여 특징 맵의 개수를 증가시키는 단계;
    상기 특징 맵의 개수를 유지하면서 상기 특징 맵을 복수회 합성곱 처리하여 상기 마지막 합성곱 층의 특징 맵을 생성하는 단계를 포함하는, 고문서 이미지 광학 문자 판독 방법.
  6. 제1항 내지 제5항 중 어느 한 항의 고문서 이미지 광학 문자 판독 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
  7. 판독 대상의 고문서 이미지 상에 존재하는 한자와 상기 한자의 위치를 예측하는 합성곱 신경망; 및
    상기 한자와 상기 한자의 위치를 결합하여 상기 고문서 이미지를 한문 디지털 텍스트로 변환하는 결합부를 포함하고,
    상기 합성곱 신경망은,
    상기 판독 대상의 고문서 이미지를 합성곱 처리하는 합성곱 처리부;
    상기 합성곱 처리부에 의해 생성되는 마지막 합성곱 층의 특징 맵을 전역 평균 풀링하는 전역 평균 풀링부;
    상기 특징 맵으로부터 전역 평균 풀링된 값들에 가중치들을 누적합 연산하여 한자의 존재 확률을 예측하는 완전 연결층; 및
    상기 고문서 이미지 상에 존재 확률이 기준값 이상인 한자에 대해 클래스 활성 매핑을 수행하여 한자의 위치를 예측하는 클래스 활성 매핑부를 포함하고,
    상기 결합부는,
    상기 기준값 이상의 존재 확률을 가지는 한자들과 상기 클래스 활성 매핑에 의해 예측된 한자의 위치를 결합하여 상기 고문서 이미지를 상기 한문 디지털 텍스트로 변환하는, 고문서 이미지 광학 문자 판독 장치.
  8. 제7항에 있어서,
    개별 한자 이미지를 고문서 배경이미지에 합성하여 가상 고문서 이미지를 생성하는 훈련데이터 생성부; 및
    상기 가상 고문서 이미지를 포함하는 훈련데이터를 이용하여 상기 합성곱 신경망을 학습하는 학습부를 더 포함하고,
    상기 훈련데이터 생성부는,
    개별 한자 이미지의 배경을 제거하고; 그리고
    배경 제거된 개별 한자 이미지를 고문서 배경이미지에 임의로 위치시켜 상기 가상 고문서 이미지를 생성하도록 구성되는, 고문서 이미지 광학 문자 판독 장치.
  9. 제7항에 있어서,
    상기 클래스 활성 매핑부는,
    상기 마지막 합성곱 층의 특징 맵들과 상기 한자와 관련된 가중치들을 누적합 처리하여 클래스 활성 맵을 생성하고; 그리고
    상기 클래스 활성 맵에서 한자의 위치를 분석하여 상기 한자의 위치를 예측하도록 구성되는, 고문서 이미지 광학 문자 판독 장치.
  10. 제7항에 있어서,
    상기 합성곱 처리부는,
    상기 고문서 이미지를 기준 합성곱 영상을 이용하여 합성곱 처리한 후 최대 풀링 처리하는 과정을 복수회 반복하여 특징 맵의 개수를 증가시키고; 그리고
    상기 특징 맵의 개수를 유지하면서 상기 특징 맵을 복수회 합성곱 처리하여 상기 마지막 합성곱 층의 특징 맵을 생성하도록 구성되는, 고문서 이미지 광학 문자 판독 장치.
KR1020200027253A 2019-06-28 2020-03-04 고문서 이미지 광학 문자 판독 장치 및 방법 KR102394314B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190077528 2019-06-28
KR1020190077528 2019-06-28

Publications (2)

Publication Number Publication Date
KR20210001890A KR20210001890A (ko) 2021-01-06
KR102394314B1 true KR102394314B1 (ko) 2022-05-03

Family

ID=74128459

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200027253A KR102394314B1 (ko) 2019-06-28 2020-03-04 고문서 이미지 광학 문자 판독 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102394314B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158808B (zh) * 2021-03-24 2023-04-07 华南理工大学 中文古籍字符识别、组段与版面重建方法、介质和设备
KR20230042994A (ko) * 2021-09-23 2023-03-30 연세대학교 산학협력단 Cam 기반의 약한 지도학습 물체탐지 장치 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040038384A (ko) * 2002-10-31 2004-05-08 (주)동방에스앤씨 한자 영상 군집화를 통한 고문서 입력 및 교정 시스템
KR101777601B1 (ko) * 2016-01-11 2017-09-13 경북대학교 산학협력단 초서체 또는 흘림체로 작성된 문자의 판별 방법 및 시스템

Also Published As

Publication number Publication date
KR20210001890A (ko) 2021-01-06

Similar Documents

Publication Publication Date Title
US11568544B2 (en) Utilizing a two-stream encoder neural network to generate composite digital images
CN110418210B (zh) 一种基于双向循环神经网络和深度输出的视频描述生成方法
CN112330682B (zh) 一种基于深度卷积神经网络的工业ct图像分割方法
WO2019075130A1 (en) IMAGE PROCESSING DEVICE AND METHOD
CN110570433B (zh) 基于生成对抗网络的图像语义分割模型构建方法和装置
KR102394314B1 (ko) 고문서 이미지 광학 문자 판독 장치 및 방법
CN110781923A (zh) 特征提取方法及装置
Xie et al. Visualization and Pruning of SSD with the base network VGG16
CN112613356B (zh) 一种基于深度注意力融合网络的动作检测方法及装置
JP7172612B2 (ja) データ拡張プログラム、データ拡張方法およびデータ拡張装置
CN114549913A (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN114782355B (zh) 基于改进vgg16网络的胃癌数字病理切片检测方法
US20220318715A1 (en) Machine learning models based methods and systems for determining prospective acquisitions between business entities
CN110209863B (zh) 用于相似图片检索的方法与设备
CN114881169A (zh) 使用随机特征损坏的自监督对比学习
JP6935868B2 (ja) 画像認識装置、画像認識方法、およびプログラム
CN116778497A (zh) 一种人手井编号识别方法、装置、计算机设备和存储介质
CN111554277B (zh) 语音数据识别方法、装置、设备及介质
US20200372280A1 (en) Apparatus and method for image processing for machine learning
KR102675490B1 (ko) 다수준 등장인물 주의집중을 통한 비디오 스토리 이해 방법 및 이를 수행하기 위한 컴퓨팅 장치
CN109582296B (zh) 一种基于栈增强lstm的程序表示方法
CN111598189B (zh) 产生式模型的训练方法、数据生成方法、装置、介质和设备
KR102317205B1 (ko) 압축된 데이터를 복원하는 방법 및 장치
CN114708467B (zh) 基于知识蒸馏的不良场景识别方法及系统及设备
CN114120336B (zh) 手写数字识别方法、系统、设备及计算机可读存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant