KR102349506B1

KR102349506B1 - 폰트 인식을 위한 신경망 학습 데이터 생성 및 학습 결과를 반영한 생성 조건의 동적 설정 방법

Info

Publication number: KR102349506B1
Application number: KR1020210074284A
Authority: KR
Inventors: 이혁; 윤현진; 박동혁; 서일근; 김승현
Original assignee: 주식회사 산돌메타랩
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2022-01-14
Also published as: KR20220165634A

Abstract

본 발명은 폰트 인식을 위한 신경망의 학습 데이터의 생성 방법에 관한 것이다. 본 발명에 따른 신경망을 이용한 폰트 인식용 학습 데이터 생성 방법은 폰트에 따라 생성할 텍스트의 길이를 결정하는 단계; 상기 폰트가 지원하는 문자 또는 숫자 별 구성 비에 따라 상기 문자 또는 숫자가 조합된 상기 결정된 길이의 텍스트를 생성하는 단계; 상기 생성된 텍스트의 폰트에 종속하여 부여 가능한 텍스트 효과를 결정하는 단계; 및 상기 효과가 부여된 텍스트에 배경을 합성하여 텍스트 이미지를 생성하는 단계를 더 포함하고 상기 생성된 텍스트 이미지와 결정된 폰트로 구성된 학습 데이터 셋을 통한 신경망의 학습 결과에 따라 상기 텍스트 효과의 부여 조건 또는 상기 배경 이미지의 합성 조건은 동적으로 설정되는 것이 바람직하다. 본 발명에 따르면 다양한 폰트 사용예를 포괄할 수 있는 학습 데이터를 무한히 생성할 수 있다. 또한, 본 발명은 폰트에서 지원하는 언어적 특징을 반영하여 학습 데이터를 생성함으로써 다양한 언어에 대해서도 적응적으로 높은 인식 결과를 생성할 수 있도록 한다.

Description

폰트 인식을 위한 신경망 학습 데이터 생성 및 학습 결과를 반영한 생성 조건의 동적 설정 방법{Method for generating training data of neural network for detecting font and adjusting option of generation through training result}

본 발명은 폰트 인식을 위한 신경망의 학습 데이터의 생성 방법에 관한 것이다.

폰트(font)는 글자의 모양을 의미하는 것으로, 특정한 모양의 서체의 윤곽선을 크기, 장평, 굵기, 기울기 등을 조절하여 반복적이고 편리하게 출력하도록 제작된 표현물로서 저작권상 보호받고 있다.

폰트 파일은 이러한 폰트를 디지털 기기 화면에 글자를 표시, 출력하기 위한 목적으로 만들어진 전자 데이터 파일로, 1980년대 마이크로소프트와 애플이 만든 글꼴 저장 형식인 TTF(True Type Font, 트루타입 글꼴), 어도비 시스템즈와 결합하여 만든 OTF(OpenType Font) 등의 형식으로 주로 개발되고 있다.

이러한 폰트들은 형식에 따라 렌더링 되며 다양한 불규칙한 곡선의 형상을 갖는데, 폰트가 사용되는 배경이나 크기의 기하학적 변경에 따라 고유한 형상이 왜곡되거나 변형될 수 있다.

따라서, 폰트가 사용된 이미지 자체 만으로 이용된 폰트를 식별하는 데에 어려움이 있다.

최근 인공지능 기술의 발달로 학습된 신경망을 이용하여, 객체 인식이나 분류에 다양한 인공지능 알고리즘들이 이용되고 있다. 인공지능의 성능은 신경망의 내부적인 구조 뿐만 아니라 학습에 이용되는 학습 데이터의 특성에 많은 영향을 받게 된다.

이에 따라 폰트 인식과 관련한 분야에서도 신경망을 이용한 인식 방법이 고안되고 있다(선행특허: 일본공개특허공보 2019-091434(공개일 2019.06.13).

본 발명은 폰트 인식을 위한 신경망의 학습 데이터의 생성 방법을 제안하는 것을 목적으로 한다.

구체적으로, 본 발명은 폰트의 다양한 사용예에 따라 적응적인 성능을 갖도록 신경망을 학습시키는 학습 데이터의 생성 방법을 제안하는 것을 목적으로 한다.

또한, 본 발명은 폰트의 학습 결과에 따라 동적으로 학습 데이터의 생성 조건을 가변함으로써 신경망의 학습 성능을 높이는 방법을 제안하는 것을 목적으로 한다.

상기 기술적 과제를 해결하기 위한 본 발명에 따른 신경망을 이용한 폰트 인식용 학습 데이터 생성 방법은 폰트에 따라 생성할 텍스트의 길이를 결정하는 단계; 상기 폰트가 지원하는 문자 또는 숫자 별 구성 비에 따라 상기 문자 또는 숫자가 조합된 상기 결정된 길이의 텍스트를 생성하는 단계; 상기 생성된 텍스트의 폰트에 종속하여 부여 가능한 텍스트 효과를 결정하는 단계; 및 상기 효과가 부여된 텍스트에 배경을 합성하여 텍스트 이미지를 생성하는 단계를 더 포함하고 상기 생성된 텍스트 이미지와 결정된 폰트로 구성된 학습 데이터 셋을 통한 신경망의 학습 결과에 따라 상기 텍스트 효과의 부여 조건 또는 상기 배경 이미지의 합성 조건은 동적으로 설정되는 것이 바람직하다.

상기 텍스트 효과를 결정하는 단계는 텍스트의 공간 내 위치 또는 형태의 변형 정도를 더 결정하고, 상기 텍스트 이미지를 생성하는 단계는 공간 내 위치 또는 형태가 변형된 상기 텍스트를 상기 배경 이미지와 합성하는 것이 바람직하다.

상기 텍스트를 이미지를 생성하는 단계는 상기 텍스트의 배경을 포함한 경계의 확장 또는 축소를 통해 텍스트 이미지의 영역을 결정하는 것이 바람직하다.

상기 텍스트 효과를 결정하는 단계는 상기 텍스트의 색상을 미리 결정된 비중의 단일 색상 또는 복합 색상으로 결정하는 것이 바람직하다.

상기 텍스트 효과를 결정하는 단계는 상기 텍스트의 윤곽선의 형태를 결정하는 것이 바람직하다.

상기 텍스트 이미지를 생성하는 단계는 임의의 색상 또는 독립된 이미지를 상기 텍스트의 배경으로 합성하는 것이 바람직하다.

상기 생성된 텍스트 이미지를 미리 결정된 크기로 정규화하고, 상기 정규화된 이미지로부터 한글자 단위의 크기로 추출하여 신경망의 학습을 위한 입력으로 제공되는 것이 바람직하다.

상기 기술적 과제를 해결하기 위한 본 발명에 따른 신경망을 이용한 폰트 인식용 학습 데이터 생성 장치는 폰트를 결정하는 폰트 결정부; 결정된 폰트에 따라 생성할 텍스트의 길이를 결정하는 폰트 길이 결정부; 상기 폰트가 지원하는 문자 또는 숫자 별 구성 비에 따라 상기 문자 또는 숫자가 조합된 상기 결정된 길이의 텍스트를 생성하는 텍스트 생성부; 상기 생성된 텍스트의 폰트에 종속하여 부여 가능한 텍스트 효과를 결정하고 결정된 효과를 부여하는 텍스트 효과부; 상기 효과가 부여된 텍스트에 배경을 합성하여 텍스트 이미지를 생성하는 텍스트 이미지 생성부; 및 상기 생성된 텍스트 이미지를 미리 결정된 크기로 정규화하고, 상기 정규화된 이미지로부터 한글자 단위의 크기로 추출하여 신경망의 학습을 위한 입력으로 학습시키는 학습부;를 더 포함하고 상기 학습부는 상기 생성된 텍스트 이미지와 결정된 폰트로 구성된 학습 데이터 셋을 통한 신경망의 학습 결과에 따라 상기 텍스트 효과의 부여 조건 또는 상기 배경 이미지의 합성 조건은 동적으로 설정하는 것이 바람직하다.

본 발명에 따르면 다양한 폰트 사용예를 포괄할 수 있는 학습 데이터를 무한히 생성할 수 있다.

또한, 본 발명은 폰트에서 지원하는 언어적 특징을 반영하여 학습 데이터를 생성함으로써 다양한 언어에 대해서도 적응적으로 높은 인식 결과를 생성할 수 있도록 한다.

또한, 본 발명은 폰트의 학습 결과에 따라 동적으로 학습 데이터의 생성 조건을 가변함으로써 신경망의 학습 효과를 더욱 높일 수 있다.

도 1은 본 발명의 일 실시예에 따른 폰트 인식 시스템을 나타낸 예시도이다.
도 2는 본 발명의 일 실시예에 따른 폰트 인식을 위한 학습 데이터 생성 방법을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 폰트 인식을 위한 학습 데이터 생성 조건을 나타낸 예시도이다.
도 4는 본 발명의 일 실시예에 따른 폰트 인식을 위한 학습 데이터 생성 방법을 나타낸 예시도이다.
도 5 내지 10은 본 발명의 일 실시예에 따른 폰트 인식을 위한 학습 데이터를 나타낸 예시도이다.
도 11은 본 발명의 일 실시예에 따른 폰트 인식을 위한 학습 데이터 생성을 위한 전처리 과정을 나타낸 예시도이다.
도 12는 본 발명의 일 실시예에 따른 폰트 인식을 위한 학습 데이터 생성 방법을 나타낸 예시도이다.
도 13은 본 발명의 일 실시예에 따른 폰트 인식을 위한 학습 데이터 생성 장치의 구성을 나타낸 블록도이다.

이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시 되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이외같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다.

또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하에는 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예에 대해 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 신경망을 이용한 폰트 인식용 학습 데이터 생성 방법을 수행하는 학습 데이터 생성 장치(100)의 구성을 나타낸다.

본 실시예에 따른 학습 데이터 생성 장치(100)는 메모리와 컴퓨터 연산을 수행하는 프로세서로 구성된 컴퓨팅 장치로 구현될 수 있으며, 로컬에서 학습 데이터를 생성하는 로컬 컴퓨터 또는 휴대용 노트북이나 PC 등의 형태를 가질 수 있다.

또한, 네트워크를 통하여 학습 데이터를 생성하고 이를 다양한 장치로 배포할 수 있는 클라우드 형태의 서버로 구성될 수 있다.

구체적으로 학습 데이터 생성 장치(100)는 학습 데이터 생성부 및 학습부로 구성될 수 있다.

학습 데이터 생성부는 입력된 조건에 따라 신경망(50)을 학습시키기 위한 데이터를 생성한다.

폰트의 경우 동일한 폰트라도 사용되는 형태에 따라 색상이나 크기가 다양하게 변경될 수 있으며, 텍스트가 포함된 이미지들을 수집하여 하나하나 사용된 폰트를 구분하고 폰트의 종류를 수기로 레이블링 하여 신경망의 학습을 위한 학습 데이터로 생성하는 데에 어려움이 있다.

따라서, 학습 데이터 생성부는 폰트 인식을 위한 신경망의 입력으로 폰트를 포함하는 이미지를 학습 데이터로 가상으로 생성한다. 또한 본 실시예에서는 폰트의 다양한 사용예를 반영할 수 있도록 폰트에서 지원하는 언어별 조합, 폰트 효과, 배경, 기하학적인 변형 조건들을 반영하여 학습 데이터를 보다 다양하게 생성하도록 한다.

학습부는 학습 데이터 생성부에서 생성된 학습 데이터를 이용하여 신경망의 학습을 수행한다.

신경망(50)은 입력된 학습 데이터 또는 학습 데이터 집합(batch)으로, 이미지와 이미지 생성시에 사용된 폰트에 대하여 미리 분류한 정답 정보를 레이블링 한 데이터를 이용하여 지도학습을 수행할 수 있다.

또는 폰트의 직접적인 분류 외 폰트를 정의하는 포괄적인 분류로서 예를 들어 고딕체, 명조체 등과 같은 폰트의 계층적인 특징을 분류하도록 비지도 또는 약지도 학습을 수행하는 것도 가능하다.

학습부는 이상의 신경망(50)의 학습 결과로서 예측 성능을 학습 데이터 생성부에 피드백하고 학습 데이터 생성부는 과적합(Overfitting)을 해결하기 위한 학습 데이터의 생성 조건을 변경하거나, 예측 성능에 부정적인 영향을 주는 요소들을 제거하도록 조건을 설정한다.

따라서, 본 실시예에 따른 학습 데이터 생성 장치(100)는 학습 데이터의 생성을 통해 폰트를 예측하는 신경망의 학습 성능을 높임과 동시에, 학습 결과를 통해 보다 다양한 조건을 학습 데이터 생성에 반영할 수 있도록 한다.

이하, 본 발명의 일 실시예에 따른 폰트 인식용 학습 데이터 생성 방법에 대하여 설명한다.

도 2를 참조하면, 본 실시예에 따른 학습 데이터 생성 방법은 먼저, 폰트에 따라 생성할 텍스트의 길이를 결정한다(S100).

이때, 도시하지는 않았으나 길이의 결정에 앞서 폰트를 분류하고자 하는 전체 폰트 집합에 따라 임의로 결정할 수 있으며 결정된 폰트는 학습 데이터의 정답값(Ground-Truth)으로 레이블링될 수 있다.

선택된 폰트에 대하여 생성할 텍스트의 길이를 결정한다.

구체적으로, 텍스트의 길이는 비트나 바이트 단위로 결정되거나 문자수로 결정될 수 있다.

텍스트의 길이가 결정되면, 폰트가 지원하는 문자 또는 숫자 별 구성 비에 따라 문자 또는 숫자가 조합된 상기 결정된 길이의 텍스트를 생성한다(S200).

즉, 폰트는 한글이나 영문 중 하나의 언어만 지원하거나 또는 한글, 영문, 일문 등 다양한 언어를 포괄적으로 지원할 수 있다. 따라서 다양한 언어를 지원하는 폰트의 경우는 생성하는 텍스트 내에 지원하는 언어에 따른 문자 별로 학습 데이터를 생성하는 것이 예측 효과를 높이는데 도움이 되므로 지원하는 문자를 고려하여 텍스트의 구성비를 결정할 수 있다.

예를 들어 도 3을 참고하면, 우선적으로 텍스트를 하나의 문자로 구성할지 또는 무작위로 복수의 언어를 조합할지를 구분하여 결정할 수 있다.

즉, 무작위로 복수의 언어의 조합 확률과 한가지 문자로 구성되는 확률을 결정할 수 있다.

따라서, 결정된 확률에 따라 지원 가능한 문자를 모두 조합하여 텍스트를 구성하거나 한글로만 구성된 문자를 구성할 수 있다.

이때 텍스트의 길이와 함께 언어적 특징을 고려하여 문자의 가능한 조합을 제한할 수 있다. 예를 들어, 한글의 조합 가능한 문자수는 11,172개로 11,172글자를 모두 지원하지 않는 폰트도 많기 때문에 대부분의 한글 폰트가 지원하는 2,350글자의 문자로 텍스트를 생성할 수 있다.

또한, 2,350글자의 국문에 추가적으로 숫자, 영문자(대소문자)를 포함할 수 있다. 이때 개별 자모음 문자(예, ㄱ, ㄹ, ㅏ, ㅒ)는 완성된 한글 문자에 모두 포함되기 때문에 추가적으로 사용하지 않는다.

또한, 한가지 문자로 구성되는 확률을 각 언어 별로 결정하는 것도 가능하다.

예를 들어 무작위 조합의 확률과 한가지 문자 조합의 확률을 각각 50%로 균등하게 설정하고, 한가지 문자 조합 내부적으로는 언어 별로 구분할 수 있다. 이때 문자 외 숫자의 비중을 별도로 구분하는 것도 가능하다.

다음 생성된 텍스트의 폰트에 종속하여 부여 가능한 텍스트 효과를 결정한다(S300).

이때 텍스트 효과의 부여 여부는 텍스트의 종류에 따라 결정될 수 있다. 본 실시예에서 텍스트의 종류는 부여된 효과의 복잡도에 따라 결정될 수 있으며, 예를 들어 텍스트에 아무런 효과도 부여되지 않거나, 폰트 사이즈 또는 색상 만 변경된 경우를 제1 종류, 텍스트에 대한 굵기, 기울임 등의 효과가 부여된 경우를 제2 종류로 결정할 수 있다.

그 외, 텍스트에 대하여 그림자나 테두리 색상, 복합적인 색상으로 변경하는 경우를 제3 종류로 구분할 수 있다.

따라서 본 실시예에서는 구분된 종류에 따라 텍스트의 배경 이미지를 결정할 수 있다. 도 4를 참고하면 본 실시예에 따른 학습 방법은 텍스트 이미지 종류를 선택(S300)하고 텍스트 이미지가 기본 효과만 부여된 제1 종류 외인 경우(S310)에는 텍스트의 효과를 선택할 수 있다(S320).

구체적으로, 텍스트의 효과는 사이즈와 질감, 윤곽선, 그림자 및 3차원 상의 변형으로 3차원 공간 안의 물체나 이미지의 변형, 이동, 크기변화, 회전 등으로 구분될 수 있다.

폰트의 사이즈는 독립된 속성으로 랜덤하게 결정될 수 있다. 예를 들어 14pt~180pt 의 범위에서 무작위로 결정된다.

다음 텍스트 질감으로 폰트 색상은 단일 색상과 복합된 색상으로 구분될 수 있으며, 예를 들어 단일 색상의 비중을 70%, 복합 색상 30%로 결정할 수 있다.

도 5를 참고하면 단일 색상은 RGB 값 중 무작위로 선택될 수 있으며, 문자열 '단일컬러텍스트'에 대하여 단일 색상 중에서 각 RGB 값 무작위 선택(70%)하거나, 조합된 컬러 중 무작위 선택(30%)이 가능하다. RGB 값의 선택 시 알파(Alpha) 채널 값(투명도)을 범위 120~255에서 무작위 선택(50%)하도록 할 수 있으며 또는 값 255 선택(50%)하도록 할 수 있다.

이때 조합된 컬러 중 무작위 선택(30%)하는 경우 139가지 html 주요 컬러(70%)를 선택하거나 블랙/화이트 (30%)를 선택할 수 있으며, 블랙/화이트의 경우 블랙(70%) 화이트(30%)의 비중으로 선택되도록 할 수 있다.

복합 색상은 예를 들어 그라디언트로 결정될 수 있다.

'안녕하세요'라는 문자열에 대하여 그라디언트 효과를 주기위한 조건으로 먼저 색상이 바뀌는 경계선에 대한 앵커 속성(100%)을 결정할 수 있다.

앵커 속성에는 앵커 개수로 2~5범위에서 무작위 선택하며, 앵커 위치로 완전 무작위 선택(50%)과, 그라디언트 방향의 길이를 앵커 갯수로 나눠서 균등하게 위치하도록(50%) 선택할 수 있다.

앵커 별 컬러는 상술한 단일 색상과 유사하게 각 RGB 값 무작위 선택(50%)하거나, 조합된 컬러 무작위 선택(50%)할 수 있으며, RGB 선택시는 Alpha 채널 값(투명도)를 범위 120~255에서 무작위 선택(50%)하거나, 값 255 선택(50%)할 수 있다. 조합된 컬러 무작위 선택(50%)의 경우 139가지 html 주요 컬러(100%) 중 하나를 선택할 수 있다.

다음, 그라디언트 방향을 결정한다.

그라디언트 방향은 수직과 수평 방향을 각각 균등한 50% 비율로 결정할 수 있다.

이어서, 윤곽선 효과를 결정할 수 있다. 예를 들어 문자열 '다람쥐'에 대하여 윤곽선 효과는 효과 자체의 부가 비율을 30% 정도로 설정할 수 있으며, 윤곽선 효과는 부여시 색상과 두께를 독립적으로 각각 설정한다.

윤곽선 색상의 경우 상술한 폰트 색상의 방법과 동일하게 선택될 수 있으며, 추가적으로 윤곽선의 두께를 결정할 수 있다.

윤곽선의 두께는 1~4픽셀 범위에서 무작위 선택(50%)하거나, 두께 별 지정 확률로 무작위 선택(50%)되도록 한다. 예를 들어 두께 별 지정 확률 선택 시 1픽셀: 30%, 2픽셀: 40%, 3픽셀: 30%의 비중으로 선택되도록 할 수 있다.

또한, 윤곽선을 흐리게 하는 블러(blur)효과(20%)를 부여할 수 있으며, 블러 효과의 부여 회수를 1~2회 범위에서 무작위 선택(50%)하거나, 1회(50%) 할 수 있다.

다음, 문자열에 대하여 그림자 효과를 부여할 수 있다. 그림자 효과는 30% 확률로 부여될 수 있으며 예를 들어 '타고파'라는 문자열에 대하여 그림자 컬러와 두께 및 블러 효과가 부여될 수 있으며, 이는 상술한 윤곽선과 동일한 방식으로 결정될 수 있다.

추가적으로 그림자에 대해서는 그림자의 방향을 결정할 수 있는데, 그림자의 방향은 오른쪽아래: 30%, 오른쪽: 10%, 왼쪽: 10%, 아래: 10%, 위: 10%, 오른쪽위: 10%, 왼쪽아래: 10%, 왼쪽위: 10%의 방향에 따라 결정된 확률로 부여될 수 있다.

또한, 본 실시예에서는 문자열에 대하여 2차원 또는 3차원 공간 상의 변형을 가할 수 있다.

예를 들어 기울기 효과를 10%확률로 부여하며, 기울기 각도는 0~45도의 범위에서 무작위로 선택할 수 있다.

또한, 공간 내에서 배경과 독립하여 회전할 수 있으며 도 6과 같이 문자열 'INDIANA JONES'를 회전시킬 수 있다. 이때 문자열의 회전 각도는 무작위로 선택될 수 있으며, 선택되는 각도의 범위를 구분하여 예를 들어, x축을 기준으로 -75~75도 범위에서 무작위 선택(50%)하고, -40~40도 범위에서 무작위 선택(50%)하도록 결정할 수 있다.

이상, 도 4에서 텍스트의 종류에 따라 효과를 부여하는 것으로 결정되고, 효과별 부여 확률에 따라 효과가 부여된 텍스트를 이미지로 생성하기 위해 배경 이미지의 속성을 선택할 수 있다(S330).

도 7을 참고하면, 먼저 배경 효과로 배경의 색상을 결정할 수 있으며, 문자열 'BACKGROUND-'에 대한 배경 색상을 결정한다. 색상의 결정 방법은 폰트의 색상 결정 방법과 동일한 확률에 따라 수행될 수 있다.

또한, 배경에 그라디언트 효과를 부여할 수 있으며 문자열 'gradients'에 대하여 상술한 폰트의 그라디언트 와 같은 확률로 효과를 부여할 수 있다.

또한, 배경을 색상이 아닌 독립된 이미지로 합성하는 경우에는 배경 이미지의 공간 내에서 텍스트의 위치, 배경 이미지의 스케일을 결정할 수 있다.

도 7의 문자열 'Waves Crash'와 파도 이미지를 배경으로 합성하는 경우 배경 이미지의 크기를 조절할 수 있다. 먼저 배경 이미지의 크기를 50%~150% 범위에서 무작위 선택하여 이미지를 스케일링 할 수 있다.

또는 가로와 세로의 길이를 독립적으로 가로 길이 스케일링 비율을 75%~125% 범위에서 무작위 선택(50%) 하거나, 80%, 90%, 110%, 120% 중 무작위 선택(50%)할 수 있다. 세로 길이 역시 75%~125% 범위에서 무작위 선택(50%), 또는 80%, 90%, 110%, 120% 중 무작위 선택(50%)하도록 결정할 수 있다.

배경 이미지를 스케일링 하여 크기를 결정하면, 이어서 배경 이미지 상 텍스트가 합성될 위치를 x축과 y축에 따라 결정한다. 예를 들어 X좌표 위치 비율(100%)은 필수적으로 결정해야하는 요소로서 원점을 기준으로 0~70% 범위에서 무작위 선택(50%), 20%, 30%, 40%, 50%중 무작위 선택(50%)하도록 할 수 있다.

또한, Y좌표 위치 비율(100%) 역시 0~70% 범위에서 무작위 선택(50%)하거나 20%, 30%, 40%, 50%중 무작위 선택(50%)하도록 할 수 있다.

이상의 과정을 통해 텍스트에 효과를 부여하고, 효과가 부여된 텍스트에 배경을 합성하여 텍스트 이미지를 생성한다.

다음, 생성된 텍스트의 이미지의 경계를 임의로 조절함으로써 텍스트의 일부가 잘려지거나, 특정 방향의 여백을 늘릴 수 있다. 텍스트의 배경을 포함한 경계의 확장 또는 축소를 통해 텍스트 이미지의 영역을 결정한다.

구체적으로 도 8을 참조하여 보다 상세히 설명하면, 텍스트의 이미지 내 텍스트를 기준으로 패딩(padding)을 수행할 수 있다. 패딩은 패딩 전 경계를 확장하는 + 패딩과, 경계를 축소하는 - 패딩으로 구분 될 수 있으며, 폰트 인식의 전제가 되는 텍스트 검출의 결과가 정확하지 않을 것을 대비하여 다양한 패딩을 의도적으로 가함으로써 신경망의 학습 성능을 높일 수 있다.

이때 패딩은 각각의 방향에 대하여 독립적으로 수행되며, 패딩의 두께(크기)는 15%~40%까지 무작위로 선택(100%)될 수 있다.

이상 본 발명에 따른 텍스트 이미지의 처리는 정의된 확률에 따라 랜덤하게 수행될 수 있다.

또한, 도 9를 참고하면 텍스트의 크기를 폰트 사이즈와 같이 정형화하여 변경하는 것이 아닌 이미지 스케일링을 통해 폰트의 특징을 의도적으로 왜곡할 수 있다.

예를 들어, 문자열 '니가 참 좋아'를 가로길이를 10% 확장할 수 있으며 이를 통해 고유의 폰트 속성에 따른 가로 세로 비율이 왜곡된 경우에도 폰트 인식이 가능하도록 한다. 변경 비율은 75%~125% 범위에서 무작위 선택(50%) 하거나, 80%, 90%, 110%, 120% 중 무작위 선택(50%)할 수 있으며 세로 길이의 변경도 이와 같이 수행될 수 있다.

본 실시예에 따른 폰트 인식용 학습 데이터 생성 방법은 이상의 과정을 통해 반복적으로 텍스트 이미지를 생성하되, 텍스트의 구성 비에 따른 분류 별 개수를 만족하도록 텍스트를 생성하여 학습 데이터 셋을 구성할 수 있다.

학습 데이터 셋은 학습 도중 과적합(overfitting) 되는지 확인하기 위한 검증(Validation) 데이터셋으로 학습 전에 미리 생성될 수 있다.

도 10을 참조하면, 구체적으로 검증 데이터 셋은 표현될 수 있는 텍스트를 대표하는 이미지로 지원하는 언어 별로 한글, 알파벳, 숫자를 조합한 이미지, 한글만 포함한 이미지, 알파벳만 포함한 이미지, 숫자만 포함한 이미지를 포함하되 분류하고자 하는 폰트별로 이미지를 결정된 개수로 생성할 수 있다.

이상의 생성된 검증 데이터 셋을 이용하여 과적합 문제를 해결하고, 학습 성능을 개선할 수 있다.

나아가, 본 실시예에 따른 학습 데이터는 학습을 위해 신경망의 입력 전에 전처리 될 수 있다.

구체적으로 전처리는 생성된 텍스트 이미지는 미리 결정된 크기로 정규화하고, 정규화된 이미지로부터 한글자 단위의 크기로 추출하여 신경망의 학습을 위한 입력으로 제공할 수 있다.

즉, 생성된 텍스트 이미지 중 랜덤하게 추출된 한글자 단위의 이미지를 학습에 이용한다. 이때 한글자 단위의 이미지는 이미지의 크기가 한글자를 포함할 수 있는 정도를 의미하고, 따라서 실제 추출된 단위 이미지 내에는 일부 글자들이 잘려서 포함될 수 있다.

도 11을 참조하면, 본 실시예에서는 생성된 이미지의 크기를 두가지로 분류하여 학습 전 전처리를 수행한다.

먼저 도 11a와 같이 가로가 긴 이미지가 추출된 경우 이미지의 세로길이가 기준 입력 길이(224px)가 되도록 종횡비(Aspect ratio)를 유지한 채 이미지를 리사이징한다.

리사이징 된 이미지에 대하여 랜덤으로 단위 이미지를 추출한 기준 점으로 x 축상의 일 위치를 선정하고, 미리 결정된 정방형의 사이즈(예를 들어, 224x224 픽셀)크기로 잘라낼 수 있다. 이때, 위치를 선정할 때 적어도 가로 224px이 유지될 수 있도록, x축 상에서 오른쪽에서 224px 왼쪽으로 떨어진 지점까지의 범위 내에서 위치를 랜덤하게 선택하도록 한다.

또한, 도 11b와 같이 세로가 긴 이미지에 대해서는 반대로 이미지의 가로길이가 기준 입력 길이(224px)가 되도록 종횡비를 유지한 채 이미지를 리사이징하되, 추출의 기준이 되는 y축상의 지점을 아래에서 기준 크기(224px) 위쪽으로 떨어진 지점까지의 범위 내에서 위치를 랜덤하게 선택하도록 한다.

이상의 과정을 통해 추출된 단위 이미지는 신경망에 입력되어 학습에 이용된다.

또한, 본 실시예에서는 신경망의 학습 결과를 이용하여 학습 데이터의 생성에 필요한 변수를 조절할 수 있다.

구체적으로 도 12를 참조하면, 생성된 학습 데이터 셋에서 추출된 단위 이미지는 신경망(50)에 입력되고 신경망은 폰트인식결과를 출력한다. 신경망은 폰트인식결과와 정답값과의 오차를 줄이도록 신경망을 학습한다.

또한, 본 실시예에서는 학습 성능을 높이기 위해 신경망 내부의 레이어의 가중치를 변경하는 것 외에, 학습 데이터의 생성 조건을 동적으로 조절할 수 있다.

상술한, 도 5 내지 9에 따라서 텍스트에 가해지는 다양한 효과는 효과 별로 부여 확률이 존재하는데 이에 따른 확률을 학습 결과에 따라 조절함으로써 신경망의 학습 효과를 늘릴 수 있다.

예를 들어 폰트 인식의 성능에 영향을 미치는 요인이 텍스트의 테두리 두께인 경우에는 해당 속성을 다양하게 조합하도록 비율을 결정하고 학습 데이터 생성에 반영할 수 있다.

이상 본 발명에 따르면 다양한 폰트 사용예를 포괄할 수 있는 학습 데이터를 생성할 수 있다.

이하, 본 실시예에 따른 학습 데이터 생성 방법을 수행하는 장치에 대하여 설명한다.

도 13을 참고하면 본 실시예에 따른 학습 데이터 생성 장치(100)는 폰트 결정부(110), 폰트 길이 결정부(120), 텍스트 생성부(130), 텍스트 효과부(140), 텍스트 이미지 생성부(150) 및 학습부(160)로 구성될 수 있다.

폰트 결정부(110)는 텍스트로 생성할 폰트를 결정한다.

다음 폰트 길이 결정부(120)는 결정된 폰트로 생성할 문자열의 전체 길이를 결정한다.

텍스트 생성부(130)는 결정된 폰트와 길이에 따라 폰트가 지원하는 문자 또는 숫자의 조합을 결정한다.

다음 텍스트 효과부(140)는 생성된 문자열에 대하여 다양한 효과를 결정된 확률에 따라 부여한다.

텍스트 이미지 생성부(150)는 효과가 부여된 텍스트와 배경 이미지를 결합함으로써 신경망의 학습에 이용될 수 있는 이미지로 생성한다.

학습부(160)는 생성된 이미지를 이용하여 신경망을 학습시킨다. 이때 신경망은 학습 과정의 결과를 텍스트 효과부나 텍스트 생성부에 제공하여 문자의 조합 확률, 문자열에 가해지는 효과의 확률을 재조절함으로써 신경망의 과적합 문제를 해결하고 다양한 형식의 폰트를 인식할 수 있도록 학습시킨다.

이상 본 발명은 학습 데이터를 언어적 특징을 반영하여 생성함으로써 다양한 언어에 대해서도 적응적으로 높은 인식 결과를 생성할 수 있도록 한다.

또한, 본 발명은 폰트의 학습 결과에 따라 동적으로 학습 데이터의 생성 조건을 가변함으로써 학습 데이터를 다양화할 수 있다.

나아가, 여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어 모듈 자체로 구현될 수 있다.

소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 씌여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리 모듈에 저장되고, 제어모듈에 의해 실행될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.

따라서, 본 발명에 개시된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

폰트 인식용 학습 데이터 생성 장치의 신경망을 이용한 폰트 인식용 학습 데이터 생성 방법에 있어서,
폰트에 따라 생성할 텍스트의 길이를 결정하는 단계;
상기 폰트가 지원하는 문자 또는 숫자 별 구성 비에 따라 상기 문자 또는 숫자가 조합된 상기 결정된 길이의 텍스트를 생성하는 단계;
상기 생성된 텍스트의 폰트에 종속하여 부여 가능한 텍스트 효과를 부여 조건 별 확률에 따라 결정하는 단계; 및
상기 효과가 부여된 텍스트에 배경 이미지를 합성하여 텍스트 이미지를 생성하는 단계를 더 포함하고
상기 부여 조건 별 확률은,
상기 생성된 텍스트 이미지와 결정된 폰트로 구성된 학습 데이터 셋을 통한 상기 신경망의 학습 결과로 부터 추출된 폰트 인식의 성능에 영향을 미치는 영향 요인에 따라 조절되며,
상기 텍스트 이미지를 생성하는 단계는 상기 생성된 텍스트 이미지를 가로 또는 세로의 상대적 길이에 따라 분류하고,
상기 분류 결과 가로가 긴 이미지의 경우 세로 길이가 기준 입력 길이가 되도록 종횡비를 유지한 채 리사이징 후, 랜덤 추출된 기준점을 기준으로 정방형의 단위 이미지를 학습 이미지로 생성하고,
상기 분류 결과 세로가 긴 이미지의 경우 가로 길이가 기준 입력 길이가 되도록 종횡비를 유지한 채 리사이징 후, 랜덤 추출된 기준점을 기준으로 정방형의 단위 이미지를 학습 이미지로 생성하는 것을 특징으로 하는 폰트 인식용 학습 데이터 생성 방법.
제 1 항에 있어서,
상기 텍스트 효과를 결정하는 단계는 텍스트의 공간 내 위치 또는 형태의 변형 정도를 더 결정하고,
상기 텍스트 이미지를 생성하는 단계는 공간 내 위치 또는 형태가 변형된 상기 텍스트를 상기 배경 이미지와 합성하는 것을 특징으로 하는 폰트 인식용 학습 데이터 생성 방법.
제 1 항에 있어서,
상기 텍스트를 이미지를 생성하는 단계는 상기 텍스트의 배경을 포함한 경계의 확장 또는 축소를 통해 텍스트 이미지의 영역을 결정하는 것을 특징으로 하는 폰트 인식용 학습 데이터 생성 방법.
제 1 항에 있어서,
상기 텍스트 효과를 결정하는 단계는 상기 텍스트의 색상을 미리 결정된 비중의 단일 색상 또는 복합 색상으로 결정하는 것을 특징으로 하는 폰트 인식용 학습 데이터 생성 방법.
제 1 항에 있어서,
상기 텍스트 효과를 결정하는 단계는 상기 텍스트의 윤곽선의 형태를 결정하는 것을 특징으로 하는 폰트 인식용 학습 데이터 생성 방법.
제 1 항에 있어서,
상기 텍스트 이미지를 생성하는 단계는 임의의 색상 또는 독립된 이미지를 상기 텍스트의 배경으로 합성하는 것을 특징으로 하는 폰트 인식용 학습 데이터 생성 방법.
제 1 항에 있어서,
상기 생성된 텍스트 이미지를 미리 결정된 크기로 정규화하고, 상기 정규화된 이미지로부터 한글자 단위의 크기로 단위 이미지를 추출하여 신경망의 학습을 위해 입력하는 것을 특징으로 하는 폰트 인식용 학습 데이터 생성 방법.
신경망을 이용한 폰트 인식용 학습 데이터 생성 장치에 있어서,
폰트를 결정하는 폰트 결정부;
결정된 폰트에 따라 생성할 텍스트의 길이를 결정하는 폰트 길이 결정부;
상기 폰트가 지원하는 문자 또는 숫자 별 구성 비에 따라 상기 문자 또는 숫자가 조합된 상기 결정된 길이의 텍스트를 생성하는 텍스트 생성부;
상기 생성된 텍스트의 폰트에 종속하여 부여 가능한 텍스트 효과를 부여 조건 별 확률결정하고 결정된 효과를 부여하는 텍스트 효과부;
상기 효과가 부여된 텍스트에 배경을 합성하여 텍스트 이미지를 생성하는 텍스트 이미지 생성부; 및
상기 생성된 텍스트 이미지를 미리 결정된 크기로 정규화하고, 상기 정규화된 이미지로부터 한글자 단위의 크기로 추출하여 신경망의 학습을 위한 입력으로 학습시키는 학습부;를 더 포함하고
상기 부여 조건 별 확률은,
상기 생성된 텍스트 이미지와 결정된 폰트로 구성된 학습 데이터 셋을 통한 상기 신경망의 학습 결과로 부터 추출된 폰트 인식의 성능에 영향을 미치는 영향 요인에 따라 조절되며,
상기 텍스트 이미지를 생성부는 상기 생성된 텍스트 이미지를 가로 또는 세로의 상대적 길이에 따라 분류하고,
상기 분류 결과 가로가 긴 이미지의 경우 세로 길이가 기준 입력 길이가 되도록 종횡비를 유지한 채 리사이징 후, 랜덤 추출된 기준점을 기준으로 정방형의 단위 이미지를 학습 이미지로 생성하고,
상기 분류 결과 세로가 긴 이미지의 경우 가로 길이가 기준 입력 길이가 되도록 종횡비를 유지한 채 리사이징 후, 랜덤 추출된 기준점을 기준으로 정방형의 단위 이미지를 학습 이미지로 생성하는 것을 특징으로 하는 폰트 인식용 학습 데이터 생성 장치.
제 1 항 내지 제 7 항 중 어느 한 항에 따른 폰트 인식용 학습 데이터 생성 장치의 폰트 인식용 학습 데이터 생성 방법을 수행하는 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체.