KR20220034075A - 폰트 생성 모델 트레이닝 방법, 폰트 라이브러리 구축 방법, 장치 및 설비 - Google Patents

폰트 생성 모델 트레이닝 방법, 폰트 라이브러리 구축 방법, 장치 및 설비 Download PDF

Info

Publication number
KR20220034075A
KR20220034075A KR1020220026073A KR20220026073A KR20220034075A KR 20220034075 A KR20220034075 A KR 20220034075A KR 1020220026073 A KR1020220026073 A KR 1020220026073A KR 20220026073 A KR20220026073 A KR 20220026073A KR 20220034075 A KR20220034075 A KR 20220034075A
Authority
KR
South Korea
Prior art keywords
font
character
generation model
generated
loss
Prior art date
Application number
KR1020220026073A
Other languages
English (en)
Inventor
자밍 류
리청 탕
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220034075A publication Critical patent/KR20220034075A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/245Font recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Character Discrimination (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)

Abstract

본 개시는 폰트 생성 모델 트레이닝 방법, 폰트 라이브러리 구축 방법, 장치 및 설비를 제공하고, 인공지능 기술분야에 관한 것으로서, 구체적으로 컴퓨터 비전 및 딥러닝 기술분야에 관한 것이며, OCR 등 시나리오에 응용될 수 있고, 상기 방법은, 소스 도메인 샘플 글자를 폰트 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득하는 단계; 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델에 입력하여, 폰트 생성 모델의 제1 특징 손실을 획득하는 단계; 제1 타겟 도메인 생성 글자 및 상기 타겟 도메인 샘플 글자를 폰트 분류 모델에 입력하여, 폰트 생성 모델의 제2 특징 손실을 획득하는 단계; 제1 특징 손실 및/또는 제2 특징 손실에 따라 타겟 특징 손실을 결정하는 단계; 타겟 특징 손실에 따라 폰트 생성 모델의 모델 파라미터를 업데이트하는 단계;를 포함한다. 본 개시의 실시예는 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시키는 바, 나아가 폰트 생성 모델이 폰트 레벨의 폰트를 생성하는 능력을 향상시킬 수 있다.

Description

폰트 생성 모델 트레이닝 방법, 폰트 라이브러리 구축 방법, 장치 및 설비{METHOD AND APPARATUS FOR TRAINING A FONT GENERATION MODEL, METHOD AND APPARATUS FOR ESTABLISHING A FONT LIBRARY, AND DEVICE}
본 개시는 인공지능 기술분야에 관한 것으로서, 구체적으로 컴퓨터 비전 및 딥러닝 기술분야에 관한 것이고, 광학 문자부호 인식(Optical Character Recognition, OCR) 등 시나리오에 응용될 수 있다.
폰트 생성은 항상 국내외 많은 연구자들이 중점적으로 연구하는 과제로 되었고, 폰트 디자인 업계에서 광범위한 응용 가치를 가지고 있다. 따라서, 어떻게 스타일이 다양한 폰트 생성 수요를 충족시킬 것인지는 폰트 생성 분야에서 주목해야 할 문제로 되었다.
본 개시의 실시예는 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시키고, 나아가 폰트 생성 모델이 폰트 레벨의 폰트를 생성하는 능력을 향상시킬 수 있는 폰트 생성 모델 트레이닝 방법, 폰트 라이브러리 구축 방법, 장치 및 설비를 제공한다.
제1 측면에서, 본 개시의 실시예는 폰트 생성 모델 트레이닝 방법을 제공하고, 해당 방법은,
소스 도메인 샘플 글자를 폰트 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득하는 단계;
상기 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 제1 특징 손실을 획득하는 단계;
상기 제1 타겟 도메인 생성 글자 및 상기 타겟 도메인 샘플 글자를 폰트 분류 모델에 입력하여, 상기 폰트 생성 모델의 제2 특징 손실을 획득하는 단계;
상기 제1 특징 손실 및/또는 상기 제2 특징 손실에 따라 타겟 특징 손실을 결정하는 단계;
상기 타겟 특징 손실에 따라 상기 폰트 생성 모델의 모델 파라미터를 업데이트하는 단계;를 포함한다.
제2 측면에서, 본 개시의 실시예는 폰트 라이브러리 구축 방법을 제공하고, 해당 방법은,
타겟 소스 도메인 입력 글자를 폰트 생성 모델에 입력하여, 타겟 도메인 새 글자를 획득하는 단계;
상기 타겟 도메인 새 글자에 기반하여 폰트 라이브러리를 구축하는 단계;를 포함하되,
여기서, 상기 폰트 생성 모델은 제1 측면에 따른 폰트 생성 모델 트레이닝 방법을 통해 트레이닝되어 획득된다.
제3 측면에서, 본 개시의 실시예는 폰트 생성 모델 트레이닝 장치를 제공하고, 해당 장치는,
소스 도메인 샘플 글자를 폰트 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득하기 위한 제1 타겟 도메인 생성 글자 획득 모듈;
상기 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 제1 특징 손실을 획득하기 위한 제1 특징 손실 획득 모듈;
상기 제1 타겟 도메인 생성 글자 및 상기 타겟 도메인 샘플 글자를 폰트 분류 모델에 입력하여, 상기 폰트 생성 모델의 제2 특징 손실을 획득하기 위한 제2 특징 손실 획득 모듈;
상기 제1 특징 손실 및/또는 상기 제2 특징 손실에 따라 타겟 특징 손실을 결정하기 위한 타겟 특징 손실 획득 모듈;
상기 타겟 특징 손실에 따라 상기 폰트 생성 모델의 모델 파라미터를 업데이트하기 위한 제1 모델 파라미터 업데이트 모듈;을 포함한다.
제4 측면에서, 본 개시의 실시예는 폰트 라이브러리 구축 장치를 제공하고, 해당 장치는,
타겟 소스 도메인 입력 글자를 폰트 생성 모델에 입력하여, 타겟 도메인 새 글자를 획득하기 위한 타겟 도메인 새 글자 획득 모듈;
상기 타겟 도메인 새 글자에 기반하여 폰트 라이브러리를 구축하기 위한 폰트 라이브러리 구축 모듈;을 포함하되,
여기서, 상기 폰트 생성 모델은 제3 측면에 따른 폰트 생성 모델 트레이닝 장치를 통해 트레이닝되어 획득된다.
제5 측면에서, 본 개시의 실시예는 전자 설비를 제공하고, 해당 전자 설비는,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신적으로 연결되는 메모리;를 포함하되, 여기서,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1 측면의 실시예에서 제공하는 폰트 생성 모델 트레이닝 방법 또는 제2 측면의 실시예에서 제공하는 폰트 라이브러리 구축 방법을 수행할 수 있도록 한다.
제6 측면에서, 본 개시의 실시예는 컴퓨터 명령이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체를 더 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터가 제1 측면의 실시예에서 제공하는 폰트 생성 모델 트레이닝 방법 또는 제2 측면의 실시예에서 제공하는 폰트 라이브러리 구축 방법을 수행하도록 한다.
제7 측면에서, 본 개시의 실시예는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 더 제공하고, 상기 컴퓨터 프로그램 중의 컴퓨터 명령이 프로세서에 의해 실행될 경우, 제1 측면의 실시예에서 제공하는 폰트 생성 모델 트레이닝 방법 또는 제2 측면의 실시예에서 제공하는 폰트 라이브러리 구축 방법을 구현한다.
본 개시의 실시예는 소스 도메인 샘플 글자를 폰트 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득하고, 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델 및 폰트 분류 모델에 각각 입력하여, 폰트 생성 모델의 제1 특징 손실 및 제2 특징 손실을 획득하여, 제1 특징 손실 및/또는 제2 특징 손실에 의해 결정된 타겟 특징 손실에 따라 폰트 생성 모델의 모델 파라미터를 업데이트함으로써, 폰트 생성 모델을 트레이닝한다. 폰트 생성 모델에 대한 트레이닝을 완성한 후, 타겟 소스 도메인 입력 글자를 폰트 생성 모델에 입력하여, 타겟 도메인 새 글자를 획득하게 되어, 타겟 도메인 새 글자에 기반하여 폰트 라이브러리를 구축하기 때문에, 종래의 폰트 생성 모델이 폰트 레벨의 폰트를 생성하기 어려운 문제를 해결하고, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킬 수 있으며, 나아가 폰트 생성 모델이 폰트 레벨의 폰트를 생성하는 능력을 향상시킨다.
본 문에서 설명된 내용은 본 개시의 실시예의 핵심적인 특징 또는 중요한 특징을 식별하기 위한 것이 아니고, 본 개시의 범위를 한정하려는 의도가 아님을 이해하여야 한다. 본 개시의 기타 특징은 하기 명세서를 통해 쉽게 이해될 수 있다.
도면은 본 방안을 보다 잘 이해하기 위한 것이고, 본 개시를 한정하지 않는다. 여기서:
도 1은 본 개시의 실시예에 의해 제공되는 폰트 생성 모델 트레이닝 방법의 흐름도이다.
도 2는 본 개시의 실시예에 의해 제공되는 폰트 생성 모델 트레이닝 방법의 흐름도이다.
도 3은 본 개시의 실시예에 의해 제공되는 폰트 생성 모델의 네트워크 구조 원리도이다.
도 4는 본 개시의 실시예에 의해 제공되는 폰트 생성 모델의 네트워크 구조 원리도이다.
도 5는 본 개시의 실시예에 의해 제공되는 제1 특징 손실의 가시화 효과의 개략도이다.
도 6은 본 개시의 실시예에 의해 제공되는 제2 특징 손실의 가시화 효과의 개략도이다.
도 7은 본 개시의 실시예에 의해 제공되는 제2 특징 손실의 가시화 효과의 개략도이다.
도 8은 본 개시의 실시예에 의해 제공되는 폰트 생성 모델 트레이닝 방법의 원리도이다.
도 9는 본 개시의 실시예에 의해 제공되는 문자부호 손실에 의해 트레이닝되어 획득된 폰트 생성 모델을 사용한 효과 비교 개략도이다.
도 10은 본 개시의 실시예에 의해 제공되는 제1 특징 손실에 의해 트레이닝되어 획득된 폰트 생성 모델을 사용한 효과 비교 개략도이다.
도 11은 본 개시의 실시예에 의해 제공되는 제2 특징 손실에 의해 트레이닝되어 획득된 폰트 생성 모델을 사용한 효과 비교 개략도이다.
도 12는 본 개시의 실시예에 의해 제공되는 폰트 라이브러리 구축 방법의 흐름도이다.
도 13은 본 개시의 실시예에 의해 제공되는 폰트 생성 모델 트레이닝 장치의 구조도이다.
도 14는 본 개시의 실시예에 의해 제공되는 폰트 라이브러리 구축 장치의 구조도이다.
도 15는 본 개시의 실시예의 폰트 생성 모델 트레이닝 방법 또는 폰트 라이브러리 구축 방법을 구현하기 위한 전자 설비의 구조 개략도이다.
이하, 도면을 결합하여 본 개시의 예시적인 실시예에 대해 설명하도록 하고, 여기서 본 개시의 실시예를 포함하는 각종 상세한 설명은 이해를 돕기 위한 것이며, 이들을 예시적인 것으로 간주하여야 한다. 따라서, 본 분야의 당업자는 본 개시의 범위 및 사상을 벗어나지 않고 여기서 설명된 실시예에 대하여 다양한 변경 및 수정이 가능함을 이해할 것이다. 마찬가지로, 명확하고 간결하게 하기 위해, 이하의 설명에서는 공지된 기능 및 구조에 대한 설명을 생략하도록 한다.
폰트 생성은 이미지 스타일 변환 분야에서 새로 각광받는 태스크이고, 이미지 스타일 변환은 한 장의 이미지를 콘텐츠를 변경하지 않는 상황에서 다른 스타일로 전환하는 것이며, 딥러닝이 응용분야에서 인기 있는 연구 방향이다.
현재 GAN(Generative Adversarial Networks, 생성적 대립 네트워크) 모델을 사용하여 폰트 생성을 구현할 수 있다. 그러나 GAN 모델에 기반한 폰트 생성 방안에서, 작은 데이터양을 이용하여 트레이닝된 네트워크는, 경사, 크기, 부분 필획의 특징과 유사한 상대적으로 약한 일부 특징만을 학습할 수 있고, 가장 사용자 스타일적인 특징을 학습하지 못한다. 비교적 큰 데이터양을 사용하여 트레이닝된 네트워크의 경우, 스타일은 강하지만, 트레이닝 세트 이외의 한자는 오자가 발생하기 쉽다. 이러한 주류의 연구 성과로는 폰트 레벨의 효과를 달성하기 어렵다.
하나의 예시에서, 도 1은 본 개시의 실시예에 의해 제공되는 폰트 생성 모델 트레이닝 방법의 흐름도이고, 본 실시예는 다양한 유형의 특징 손실에 따라 폰트 생성 모델을 트레이닝 및 최적화하는 경우에 적용될 수 있으며, 해당 방법은 폰트 생성 모델 트레이닝 장치에 의해 수행될 수 있고, 해당 장치는 소프트웨어 및/또는 하드웨어의 방식으로 구현될 수 있으며, 일반적으로 전자 설비에 통합될 수 있다. 해당 전자 설비는 단말 설비 또는 서버 설비 등일 수 있고, 본 개시의 실시예는 폰트 생성 모델 트레이닝 방법을 수행하는 전자 설비의 유형을 한정하지 않는다. 상응하게, 도 1에 도시된 바와 같이, 해당 방법은 다음의 단계를 포함한다.
단계(S110), 소스 도메인 샘플 글자를 폰트 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득한다.
본 개시의 하나의 선택적인 실시예에서, 소스 도메인 샘플 글자는 타겟 소스 도메인 폰트 스타일을 구비한 이미지일 수 있다. 타겟 소스 도메인은 특정 소스 도메인 폰트 스타일일 수 있고, 소스 도메인 폰트 스타일은 예를 들어 해서체, 송체 또는 흑체 등 통상적인 실제 폰트일 수 있다. 즉, 타겟 소스 도메인은 해서체, 송체 또는 흑체 등 통상적인 실제 폰트 중 임의의 하나의 실제 폰트 스타일일 수 있다. 제1 타겟 도메인 생성 글자는 타겟 도메인 폰트 스타일을 구비한 이미지일 수 있고, 타겟 도메인 폰트 스타일은 사용자 손글씨 폰트 또는 기타 예술적 글자 폰트 등 생성해야 하는 스타일 유형일 수 있다. 폰트 생성 모델은 타겟 도메인 폰트 스타일을 구비한 폰트를 생성할 수 있다.
본 개시의 실시예에서, 폰트 생성 모델을 트레이닝할 때, 우선 하나의 유형의 소스 도메인 샘플 글자를 폰트 생성 모델에 입력할 수 있다. 폰트 생성 모델은 입력된 소스 도메인 샘플 글자에 따라 해당 소스 도메인 샘플 글자에 대응하는 제1 타겟 도메인 생성 글자를 출력할 수 있다.
예시적으로, 해서체 글자 "做"를 포함하는 이미지를 소스 도메인 샘플 글자로 하여 폰트 생성 모델에 입력할 수 있고, 폰트 생성 모델은 사용자 손글씨 "做"를 포함하는 이미지를 출력할 수 있다.
단계(S120), 상기 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 제1 특징 손실을 획득한다.
본 개시의 하나의 선택적인 실시예에서, 상기 타겟 도메인 샘플 글자는 타겟 도메인 폰트 스타일을 구비한 이미지일 수 있다. 예시적으로, 제1 타겟 도메인 생성 글자는 폰트 생성 모델에 의해 생성된 손글씨 "做"를 포함하는 이미지이고, 타겟 도메인 샘플 글자는 실제로 손글씨 "做"를 포함하는 이미지이며, 해당 실제로 손글씨 "做"를 포함하는 이미지는 사용자가 실제 손으로 쓴 글자에 의해 생성된 이미지일 수 있다. 해당 사용자가 실제 손으로 쓴 글자에 의해 생성된 이미지는 공개된 데이터 세트로부터 획득되거나, 사용자의 허가를 거쳐 획득될 수 있다.
여기서, 문자부호 분류 모델은 문자부호 측면에서 제1 타겟 도메인 생성 글자의 정확도를 정밀하게 보정하는 모델일 수 있다. 선택적으로, 문자부호 분류 모델은 VGG19 네트워크를 통해 트레이닝되어 획득되는 것일 수 있다. 문자부호 분류 모델의 트레이닝 샘플은 다양한 폰트를 포함하는 이미지일 수 있고, 예를 들어 트레이닝 샘플은 80 가지 폰트 및 6700 개의 글자를 포함하는 약 45만 장의 이미지일 수 있다. 제1 특징 손실은 문자부호 분류 모델이 제1 타겟 도메인 생성 글자 및 타겟 도메인 샘플 글자에 따라 계산하여 획득한 차이 특징일 수 있고, 폰트 생성 모델이 보다 많은 폰트 디테일을 학습하도록 감독할 수 있다.
제1 타겟 도메인 생성 글자에 대한 폰트 생성 모델의 폰트 특징 학습 능력을 더 향상시키기 위해, 폰트 생성 모델을 트레이닝하는 과정에서, 폰트 생성 모델이 제1 타겟 도메인 생성 글자를 생성한 후, 제1 타겟 도메인 생성 글자를 문자부호 분류 모델에 입력하여, 문자부호 분류 모델이 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자에 따라 폰트 생성 모델의 제1 특징 손실을 계산할 수 있도록 한다.
단계(S130), 상기 제1 타겟 도메인 생성 글자 및 상기 타겟 도메인 샘플 글자를 폰트 분류 모델에 입력하여, 상기 폰트 생성 모델의 제2 특징 손실을 획득한다.
여기서, 폰트 분류 모델은 폰트 측면에서 제1 타겟 도메인 생성 글자의 정확도를 정밀하게 보정하는 모델일 수 있다. 선택적으로, 폰트 분류 모델도 마찬가지로 VGG19 네트워크를 통해 트레이닝되어 획득되는 것일 수 있다. 폰트 분류 모델의 트레이닝 샘플은 다양한 폰트를 포함하는 이미지일 수 있고, 예를 들어 트레이닝 샘플은 80 가지 폰트 및 6700 개의 글자를 포함하는 약 45만 장의 이미지일 수 있다. 제2 특징 손실은 폰트 분류 모델이 제1 타겟 도메인 생성 글자 및 타겟 도메인 샘플 글자에 따라 계산하여 획득한 차이 특징일 수 있고, 폰트 생성 모델이 보다 많은 폰트 디테일을 학습하도록 감독할 수 있다.
설명해야 할 것은, 문자부호 분류 모델과 폰트 분류 모델의 모델 구조는 동일하지만, 모델 파라미터와 모델 특징은 상이하다. 이는 문자부호 분류 모델과 폰트 분류 모델을 트레이닝하기 위한 샘플 데이터가 상이하기 때문이다. 구체적으로, 문자부호 분류 모델을 트레이닝하는 샘플 데이터에서, 샘플 글자의 문자부호 유형을 표기해야 하고, 폰트 분류 모델을 트레이닝하는 샘플 데이터에서, 샘플 글자의 폰트 유형을 표기해야 한다. 즉, 문자부호 분류 모델은 문자부호를 구분하는데 사용되고, 폰트 분류 모델은 폰트를 구분하는데 사용된다. 따라서, 문자부호 분류 모델이 계산을 통해 획득한 제1 특징 손실은 폰트 생성 모델이 문자부호 측면에서 폰트 디테일을 학습하는 능력을 평가할 수 있고, 예를 들어 제1 타겟 도메인 생성 글자의 문자부호 특징이 사용자 손글씨의 문자부호 특징과 매칭되는지 여부를 판단한다. 폰트 분류 모델이 계산을 통해 획득한 제2 특징 손실은 폰트 생성 모델이 폰트 측면에서 폰트 디테일을 학습하는 능력을 평가할 수 있고, 예를 들어 제1 타겟 도메인 생성 글자의 폰트 유형이 사용자 손글씨의 폰트 유형에 부합되는지 여부를 판단한다. 이로부터 알 수 있듯이, 제1 특징 손실 및 제2 특징 손실은 문자부호 및 폰트 두 가지 측면에서 폰트 생성 모델이 폰트 디테일을 학습하는 능력을 평가할 수 있다.
설명해야 할 것은, 도 1은 구현 방식의 효과 개략도일 뿐이고, 본 개시의 실시예는 단계(S120)와 단계(S130)의 수행 순서를 한정하지 않는다. 즉, 먼저 단계(S120)를 수행하고 다음 단계(S130)를 수행할 수 있다. 또는, 먼저 단계(S130)를 수행하고 다음 단계(S120)를 수행할 수도 있다. 또는, 단계(S120)와 단계(S130)를 동시에 수행할 수도 있다.
단계(S140), 상기 제1 특징 손실 및/또는 상기 제2 특징 손실에 따라 타겟 특징 손실을 결정한다.
여기서, 타겟 특징 손실은 단순히 폰트 생성 모델을 트레이닝하기 위한 특징 손실일 수 있다.
본 개시의 실시예에서, 제1 특징 손실 및 제2 특징 손실을 획득한 후, 나아가 제1 특징 손실 및/또는 제2 특징 손실에 따라 타겟 특징 손실을 결정할 수 있다.
예시적으로, 제1 특징 손실을 타겟 특징 손실로 결정할 수 있거나, 제2 특징 손실을 타겟 특징 손실로 결정할 수도 있거나, 제1 특징 손실 및 제2 특징 손실을 동시에 타겟 특징 손실로 결정할 수도 있고, 본 개시의 실시예는 타겟 특징 손실을 결정하는 방식을 한정하지 않는다.
단계(S150), 상기 타겟 특징 손실에 따라 상기 폰트 생성 모델의 모델 파라미터를 업데이트한다.
여기서, 모델 파라미터는 예를 들어 가중치 또는 바이어스 등 폰트 생성 모델의 관련 파라미터일 수 있고, 본 개시의 실시예는 모델 파라미터의 유형을 한정하지 않는다.
상응하게, 타겟 특징 손실을 결정한 후, 타겟 특징 손실에 따라 폰트 생성 모델의 모델 파라미터를 업데이트함으로써, 폰트 생성 모델에 대한 트레이닝 과정을 감독할 수 있다. 타겟 특징 손실은 각종 상이한 유형의 특징 손실을 고려할 수 있으므로, 타겟 특징 손실에 따라 폰트 생성 모델의 모델 파라미터를 업데이트하여, 폰트 생성 모델이 폰트 디테일의 학습 능력을 부단히 최적화할 수 있도록 함으로써, 폰트 생성 모델이 폰트 레벨의 폰트를 생성하는 능력을 향상시킨다.
본 개시의 실시예는 소스 도메인 샘플 글자를 폰트 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득하고, 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델 및 폰트 분류 모델에 각각 입력하여, 폰트 생성 모델의 제1 특징 손실 및 제2 특징 손실을 획득하여, 제1 특징 손실 및/또는 제2 특징 손실에 의해 결정된 타겟 특징 손실에 따라 폰트 생성 모델의 모델 파라미터를 업데이트함으로써, 폰트 생성 모델을 트레이닝한다. 폰트 생성 모델에 대한 트레이닝을 완성한 후, 타겟 소스 도메인 입력 글자를 폰트 생성 모델에 입력하여, 타겟 도메인 새 글자를 획득하게 되어, 타겟 도메인 새 글자에 기반하여 폰트 라이브러리를 구축하기 때문에, 종래의 폰트 생성 모델이 폰트 레벨의 폰트를 생성하기 어려운 문제를 해결하고, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킬 수 있으며, 나아가 폰트 생성 모델이 폰트 레벨의 폰트를 생성하는 능력을 향상시킨다.
하나의 예시에서, 도 2는 본 개시의 실시예에 의해 제공되는 폰트 생성 모델 트레이닝 방법의 흐름도이고, 본 개시의 실시예는 상기 각 실시예의 기술 방안의 기초상에서, 최적화 및 개선한 것이며, 소스 도메인 샘플 글자를 폰트 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득하고, 제1 특징 손실 및 제2 특징 손실을 획득하며, 폰트 생성 모델의 모델 파라미터를 업데이트하는 다양하고 구체적인 선택 가능한 구현 방식을 제공한다.
도 2에 도시된 바와 같은 폰트 생성 모델 트레이닝 방법은 다음의 단계를 포함한다.
단계(S210), 상기 소스 도메인 샘플 글자를 제1 생성 모델에 입력하여, 상기 제1 타겟 도메인 생성 글자 및 제1 소스 도메인 생성 글자를 획득한다.
여기서, 폰트 생성 모델은 순환 네트워크 생성 모델이고, 제1 생성 모델 및 제2 생성 모델을 포함한다. 제1 소스 도메인 생성 글자는 폰트 생성 모델이 소스 도메인 샘플 글자에 따라 생성하는 소스 도메인 폰트 스타일을 구비한 이미지일 수 있다.
단계(S220), 타겟 도메인 샘플 글자를 상기 제2 생성 모델에 입력하여, 제2 타겟 도메인 생성 글자 및 제2 소스 도메인 생성 글자를 획득한다.
여기서, 제2 타겟 도메인 생성 글자는 폰트 생성 모델에 의해 생성된 타겟 도메인 폰트 스타일을 구비한 이미지일 수 있다. 제2 소스 도메인 생성 글자는 폰트 생성 모델이 타겟 도메인 샘플 글자에 따라 생성하는 소스 도메인 폰트 스타일을 구비한 이미지일 수 있다.
단계(S230), 상기 소스 도메인 샘플 글자, 상기 제1 타겟 도메인 생성 글자, 상기 제1 소스 도메인 생성 글자, 상기 타겟 도메인 샘플 글자, 상기 제2 타겟 도메인 생성 글자 및 상기 제2 소스 도메인 생성 글자에 따라, 상기 폰트 생성 모델의 생성 손실을 계산한다.
여기서, 생성 손실은 폰트 생성 모델 중의 생성 모델의 손실일 수 있다.
단계(S240), 상기 생성 손실에 따라 상기 제1 생성 모델의 모델 파라미터를 업데이트한다.
본 개시의 실시예에서, 선택적으로, 폰트 생성 모델은 제1 생성 모델, 제2 생성 모델, 제1 판별 모델 및 제2 판별 모델을 포함할 수 있다.
단계(S250), 상기 제1 타겟 도메인 생성 글자를 미리 트레이닝된 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 문자부호 손실을 획득한다.
여기서, 문자부호 손실은 문자부호 분류 모델이 제1 타겟 도메인 생성 글자를 계산하여 획득한 오자 손실일 수 있고, 순환 생성 네트워크 모델에서 출력된 제1 타겟 도메인 생성 글자의 오자율을 제한할 수 있다.
폰트 생성 모델의 오자율을 줄이기 위해, 폰트 생성 모델의 생성 손실을 이용하여 폰트 생성 모델을 트레이닝하는 것 이외에, 폰트 생성 모델이 셀프 트레이닝을 완성한 후, 미리 트레이닝된 문자부호 분류 모델을 사용하여 폰트 생성 모델의 트레이닝 과정을 감독할 수도 있다. 구체적으로, 폰트 생성 모델에 의해 생성된 제1 타겟 도메인 생성 글자를 미리 트레이닝된 문자부호 분류 모델에 입력하여, 폰트 생성 모델의 문자부호 손실을 획득할 수 있다.
본 개시의 하나의 선택적인 실시예에서, 상기 제1 타겟 도메인 생성 글자를 미리 트레이닝된 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 문자부호 손실을 획득하는 단계는, 상기 제1 타겟 도메인 생성 글자를 상기 문자부호 분류 모델에 입력하여, 상기 제1 타겟 도메인 생성 글자의 생성 문자부호 벡터를 획득하는 단계; 상기 생성 문자부호 벡터와 기설정된 표준 문자부호 벡터 사이의 차이에 따라, 상기 문자부호 손실을 계산하는 단계;를 포함할 수 있다.
제1 타겟 도메인 생성 글자를 상기 문자부호 분류 모델에 입력하면, 상기 문자부호 분류 모델은 해당 제1 타겟 도메인 생성 글자에 대한 생성 문자부호 벡터
Figure pat00001
=[x0, x1......xi......xn]를 출력할 수 있고, 상기 제1 타겟 도메인 생성 글자에 대해 표준 문자부호 벡터
Figure pat00002
=[y0, y1......yi......yn]를 미리 설정한다. xi는 생성 문자부호 벡터 중 아래첨자가 i인 요소를 표시하고, yi는 표준 문자부호 벡터 중 아래첨자가 i인 요소를 표시하며, i는 0보다 크거나 같고 n보다 작거나 같은 정수이고, n는 생성 문자부호 벡터
Figure pat00003
및 표준 문자부호 벡터
Figure pat00004
중의 요소 개수를 표시한다.
제1 타겟 도메인 생성 글자의 생성 문자부호 벡터
Figure pat00005
와 표준 문자부호 벡터
Figure pat00006
사이의 차이에 따라, 폰트 생성 모델의 문자부호 손실을 결정할 수 있다.
구체적으로, 제1 타겟 도메인 생성 글자를 문자부호 분류 모델에 입력하여, 해당 제1 타겟 도메인 생성 글자의 생성 문자부호 벡터
Figure pat00007
=[x0, x1......xi......xn]를 획득할 수 있고, 여기서, 벡터
Figure pat00008
중의 각 요소는 트레이닝 샘플 중의 하나의 문자부호를 표시하고, n는 트레이닝 샘플 중의 문자부호 개수를 표시하며, 예를 들어, 트레이닝 샘플이 6761 개의 글자를 구비하면, n는 6760과 같을 수 있다.
상기 제1 타겟 도메인 생성 글자에 대해 표준 문자부호 벡터
Figure pat00009
=[y0, y1......yi......yn]를 미리 설정하되, 여기서, 벡터
Figure pat00010
중의 각 요소는 트레이닝 샘플 중의 하나의 문자부호를 표시하고, n는 트레이닝 샘플 중의 문자부호 개수를 표시하며, 예를 들어, 트레이닝 샘플이 6761 개의 글자를 구비하면, n는 6760과 같을 수 있다.
표준 문자부호 벡터
Figure pat00011
는 제1 타겟 도메인 생성 글자를 상기 문자부호 분류 모델에 입력한 후, 상기 문자부호 분류 모델이 출력해야 하는 벡터를 표시한다. 예를 들어, 제1 타겟 도메인 생성 글자는 글자 "做"이고, 글자 "做"가 트레이닝 샘플 중의 n 개의 글자 중에서 첫 번째에 위치하면, 글자 "做"의 표준 문자부호 벡터는
Figure pat00012
=[1, 0, 0......0]로 표시될 수 있다.
본 개시의 하나의 선택적인 실시예에서, 상기 문자부호 손실을 계산하는 단계는 아래의 공식에 따라 상기 문자부호 손실을 계산하는 단계를 포함할 수 있다.
LC=-
Figure pat00013
여기서, LC는 문자부호 손실을 표시하고, xi는 생성 문자부호 벡터 중 아래첨자가 i인 요소를 표시하며, yi는 표준 문자부호 벡터 중 아래첨자가 i인 요소를 표시하고, i는 0보다 크거나 같고 n보다 작거나 같은 정수이며, n는 상기 생성 문자부호 벡터 및 상기 표준 문자부호 벡터 중의 요소 개수를 표시한다.
상기 기술 방안에서, 폰트 생성 모델의 문자부호 손실을 계산하여 폰트 생성 모델에서 출력된 제1 타겟 도메인 생성 글자의 오자율을 제한할 수 있기 때문에, 폰트 생성 모델이 오자를 생성하는 확률을 감소시키고, 폰트 생성 모델의 정확도를 향상시킨다.
단계(S260), 상기 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 제1 특징 손실을 획득한다.
본 개시의 하나의 선택적인 실시예에서, 상기 문자부호 분류 모델은 복수의 특징층을 포함하고; 상기 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 제1 특징 손실을 획득하는 단계는, 상기 제1 타겟 도메인 생성 글자를 상기 문자부호 분류 모델에 입력하여, 상기 문자부호 분류 모델의 각 특징층에서 출력된 제1 생성 글자 특징도를 획득하는 단계; 상기 타겟 도메인 샘플 글자를 상기 문자부호 분류 모델에 입력하여, 상기 문자부호 분류 모델의 각 특징층에서 출력된 제1 샘플 글자 특징도를 획득하는 단계; 타겟 특징층의 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 차이를 계산하여, 상기 제1 특징 손실을 획득하는 단계;를 포함할 수 있다.
본 개시의 하나의 선택적인 실시예에서, 타겟 특징층의 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 차이를 계산하는 단계는, 상기 타겟 특징층의 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 픽셀 차이를 계산하여, 상기 타겟 특징층의 제1 픽셀 손실을 획득하는 단계; 상기 타겟 특징층의 제1 픽셀 손실에 따라 상기 제1 특징 손실을 계산하는 단계;를 포함할 수 있다.
여기서, 제1 생성 글자 특징도는 문자부호 분류 모델의 각 특징층에서 출력된 생성 글자의 특징도일 수 있다. 제1 샘플 글자 특징도는 문자부호 분류 모델의 각 특징층에서 출력된 샘플 글자의 특징도일 수 있다.
본 개시의 실시예에서, 문자부호 분류 모델은 복수의 특징층(예를 들어, 90 개의 특징층)을 포함할 수 있고, 제1 타겟 도메인 생성 글자를 문자부호 분류 모델에 입력하여, 각 층에서 출력된 제1 생성 글자 특징도를 획득할 수 있다. 타겟 도메인 샘플 글자를 문자부호 분류 모델에 입력하여, 각 층에서 출력된 제1 샘플 글자 특징도를 획득할 수 있다.
각 특징층에서 출력된 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 차이에 대해, 해당 층의 제1 특징 손실을 결정할 수 있다. 예를 들어, 각 특징층에서, 해당 특징층에서 출력된 제1 생성 글자 특징도 및 제1 샘플 글자 특징도의 두 장의 이미지의 각 대응 픽셀점의 픽셀값의 차이를 계산하고, 절대값을 구하여, 각 픽셀점의 차이를 획득하며, 모든 픽셀점의 차이의 합을 구하여 해당 특징층의 픽셀 손실을 획득한다.
선택적으로, 복수의 특징층 중의 적어도 하나(예를 들어, 제45 층 및 제46 층)를 타겟 특징층으로 선택할 수 있고, 각 타겟 특징층의 특징 손실의 합을 전체 제1 특징 손실로 한다.
상기 전체 특징 손실은 폰트 생성 모델이 제1 타겟 도메인 생성 글자와 타겟 도메인 샘플 글자 사이의 차이가 비교적 큰 특징을 학습하는 것을 표시할 수 있기 때문에, 폰트 생성 모델이 문자부호 측면에서 보다 많은 폰트 디테일을 학습하도록 하므로, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킨다.
본 개시의 하나의 선택적인 실시예에서, 상기 타겟 특징층의 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 픽셀 차이를 계산하는 단계는, 상기 제1 생성 글자 특징도 중의 각 위치의 픽셀점의 픽셀값과 상기 제1 샘플 글자 특징도 중의 대응 위치의 픽셀점의 픽셀값 사이의 차이값의 절대값을 계산하여, 각 위치의 픽셀점의 차이를 획득하는 단계; 복수의 위치의 픽셀점의 차이에 따라, 상기 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 픽셀 차이를 결정하는 단계;를 포함할 수 있다.
단계(S270), 상기 제1 타겟 도메인 생성 글자 및 상기 타겟 도메인 샘플 글자를 폰트 분류 모델에 입력하여, 상기 폰트 생성 모델의 제2 특징 손실을 획득한다.
본 개시의 하나의 선택적인 실시예에서, 상기 폰트 분류 모델은 복수의 특징층을 포함하고; 상기 제1 타겟 도메인 생성 글자 및 상기 타겟 도메인 샘플 글자를 폰트 분류 모델에 입력하여, 상기 폰트 생성 모델의 제2 특징 손실을 획득하는 단계는, 상기 제1 타겟 도메인 생성 글자를 상기 폰트 분류 모델에 입력하여, 상기 폰트 분류 모델의 각 특징층에서 출력된 제2 생성 글자 특징도를 획득하는 단계; 상기 타겟 도메인 샘플 글자를 상기 폰트 분류 모델에 입력하여, 상기 폰트 분류 모델의 각 특징층에서 출력된 제2 샘플 글자 특징도를 획득하는 단계; 타겟 특징층의 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 차이를 계산하여, 상기 제2 특징 손실을 획득하는 단계;를 포함할 수 있다.
본 개시의 하나의 선택적인 실시예에서, 타겟 특징층의 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 차이를 계산하는 단계는, 상기 타겟 특징층의 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 픽셀 차이를 계산하여, 상기 타겟 특징층의 제2 픽셀 손실을 획득하는 단계; 상기 타겟 특징층의 제2 픽셀 손실에 따라 상기 제2 특징 손실을 계산하는 단계;를 포함할 수 있다.
여기서, 제2 생성 글자 특징도는 폰트 분류 모델의 각 특징층에서 출력된 생성 글자의 특징도일 수 있다. 제2 샘플 글자 특징도는 폰트 분류 모델의 각 특징층에서 출력된 샘플 글자의 특징도일 수 있다.
본 개시의 실시예에서, 폰트 분류 모델은 통일적으로 복수의 특징층(예를 들어, 90 개의 특징층)을 포함할 수 있고, 제1 타겟 도메인 생성 글자를 폰트 분류 모델에 입력하여, 각 층에서 출력된 제2 생성 글자 특징도를 획득할 수 있다. 타겟 도메인 샘플 글자를 폰트 분류 모델에 입력하여, 각 층에서 출력된 제2 샘플 글자 특징도를 획득할 수 있다.
각 특징층에서 출력된 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 차이에 대해, 해당 층의 제2 특징 손실을 결정할 수 있다. 예를 들어, 각 특징층에서, 해당 특징층에서 출력된 제2 생성 글자 특징도와 제2 샘플 글자 특징도의 두 장의 이미지의 각 대응 픽셀점의 픽셀값의 차이를 계산하고, 절대값을 구하여, 각 픽셀점의 차이를 획득하며, 모든 픽셀점의 차이의 합을 구하여 해당 특징층의 픽셀 손실을 획득한다.
선택적으로, 복수의 특징층 중의 적어도 하나(예를 들어, 제45 층 및 제46 층)를 타겟 특징층으로 선택할 수 있고, 각 타겟 특징층의 특징 손실의 합을 전체 제2 특징 손실로 한다.
상기 전체 특징 손실은 폰트 생성 모델이 제1 타겟 도메인 생성 글자와 타겟 도메인 샘플 글자 사이의 차이가 비교적 큰 특징을 학습하는 것을 표시할 수 있기 때문에, 폰트 생성 모델은 폰트 측면에서 보다 많은 폰트 디테일을 학습하도록 하므로, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킨다.
본 개시의 하나의 선택적인 실시예에서, 상기 타겟 특징층의 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 픽셀 차이를 계산하는 단계는, 상기 제2 생성 글자 특징도 중의 각 위치의 픽셀점의 픽셀값과 상기 제2 샘플 글자 특징도 중의 대응 위치의 픽셀점의 픽셀값 사이의 차이값의 절대값을 계산하여, 각 위치의 픽셀점의 차이를 획득하는 단계; 복수의 위치의 픽셀점의 차이에 따라, 상기 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 픽셀 차이를 결정하는 단계;를 포함할 수 있다.
단계(S280), 상기 제1 특징 손실 및/또는 상기 제2 특징 손실에 따라 타겟 특징 손실을 결정한다.
단계(S290), 상기 문자부호 손실 및 상기 타겟 특징 손실에 따라 상기 제1 생성 모델의 모델 파라미터를 업데이트한다.
본 개시의 실시예에서, 폰트 생성 모델이 생성 손실을 이용하여 셀프 트레이닝을 완성한 후, 문자부호 분류 모델을 추가로 사용하여 폰트 생성 모델의 문자부호 손실 및 제1 특징 손실을 각각 계산할 수 있고, 폰트 분류 모델을 사용하여 폰트 생성 모델의 제2 특징 손실을 계산하여, 제1 특징 손실 및/또는 제2 특징 손실에 따라 타겟 특징 손실을 결정한다. 마지막으로, 문자부호 손실 및 타겟 특징 손실에 따라 폰트 생성 모델 중의 제1 생성 모델의 모델 파라미터를 업데이트함으로써, 계속하여 폰트 생성 모델의 트레이닝을 감독하게 된다. 선택적으로, 문자부호 손실 및 타겟 특징 손실에 따라 폰트 생성 모델 중의 제1 생성 모델의 모델 파라미터를 업데이트하는 것은, 문자부호 손실과 타겟 특징 손실의 합에 따라 폰트 생성 모델 중의 제1 생성 모델의 모델 파라미터를 업데이트하는 것일 수 있다.
설명해야 할 것은, 도 2는 구현 방식의 개략도일 뿐이고, 단계(S250)와 단계(S260) 내지 단계(S280) 사이에는 선후 수행 순서가 존재하지 않으며, 먼저 단계(S250)를 수행하고, 다음 단계(S260) 내지 단계(S280)를 수행할 수 있다. 먼저 단계(S260) 내지 단계(S280)를 수행하고, 다음 단계(S250)를 수행할 수도 있다. 또는 상기 조작을 동시에 수행할 수도 있다. 여기서, 단계(S260)과 단계(S270) 사이에도 선후 수행 순서가 존재하지 않는다.
도 3 및 도 4는 본 개시의 실시예에 의해 제공되는 폰트 생성 모델의 네트워크 구조 원리도이다. 하나의 구체적인 예시에서, 도 3 및 도 4에 도시된 바와 같이, 본 개시의 실시예에서, 폰트 생성 모델은 제1 생성 모델, 제2 생성 모델, 제1 판별 모델 및 제2 판별 모델을 포함할 수 있다. 제1 생성 모델은 소스 도메인 폰트 스타일의 이미지를 타겟 도메인 폰트 스타일의 이미지로 변환시키고, 제2 생성 모델은 타겟 도메인 폰트 스타일의 이미지를 소스 도메인 폰트 스타일의 이미지로 변환시킨다. 제1 판별 모델은 변환된 이미지가 소스 도메인 폰트 스타일의 이미지에 속하는지를 판별하고, 제2 판별 모델은 변환된 이미지가 타겟 도메인 폰트 스타일의 이미지에 속하는지를 판별한다.
상기 폰트 생성 모델의 구조에 기반하면, 폰트 생성 모델은 두 개의 순환 작업 과정을 포함할 수 있다. 도 3에 도시된 폰트 생성 모델의 첫 번째 순환 작업 과정은, 소스 도메인 샘플 글자를 제1 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득하고, 제1 타겟 도메인 생성 글자를 제2 생성 모델에 입력하여, 제1 소스 도메인 생성 글자를 획득하는 것이다. 도 4에 도시된 폰트 생성 모델의 두 번째 순환 작업 과정은, 타겟 도메인 샘플 글자를 제2 생성 모델에 입력하여, 제2 소스 도메인 생성 글자를 획득하고, 제2 소스 도메인 생성 글자를 제1 생성 모델에 입력하여, 제2 타겟 도메인 생성 글자를 획득하는 것이다. 이로써, 폰트 생성 모델의 샘플은 페어링되지 않은 이미지일 수 있기 때문에, 트레이닝 데이터 간의 일대일 매핑을 구축할 필요가 없다.
본 개시의 실시예에서, 폰트 생성 모델의 손실은 생성 손실 및 판별 손실을 포함한다. 이하, 사용자 손글씨를 타겟 도메인 폰트 스타일로 하는 경우를 예로 들어, 폰트 생성 모델의 생성 손실 및 판별 손실의 계산 방식을 구체적으로 설명하도록 한다.
도 3에 도시된 바와 같이, 폰트 생성 모델의 첫 번째 순환 작업 과정은, 소스 도메인 샘플 글자(예를 들어, 해서체 글자를 포함하는 이미지, 해서체 글자 이미지로 약칭함)를 제1 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자(예를 들어, 손글씨를 포함하는 이미지, 손글씨 이미지로 약칭함)를 획득한다. 제1 타겟 도메인 생성 글자(손글씨 이미지)를 제2 생성 모델에 입력하여, 제1 소스 도메인 생성 글자(해서체 글자 이미지)를 획득한다.
첫 번째 순환 작업 과정에서, 소스 도메인 샘플 글자는 실제 해서체 글자 이미지이고, 제1 소스 도메인 생성 글자는 모델에 의해 생성된 해서체 글자 이미지이며, 가짜 해서체 글자 이미지로 칭할 수 있다. 제1 타겟 도메인 생성 글자는 모델에 의해 생성된 손글씨 이미지이고, 가짜 손글씨 이미지로 칭할 수 있다. 트레이닝 과정에서, 소스 도메인 샘플 글자를 진짜(Real)(예를 들어 값은 1임)로 표기하고, 제1 타겟 도메인 생성 글자를 가짜(Fake)(예를 들어 값은 0임)로 표기할 수 있다.
소스 도메인 샘플 글자를 제1 판별 모델에 입력하는 경우, 제1 판별 모델의 예상 출력은 1이어야 한다. 제1 판별 모델의 실제 출력은 X이고, 평균 제곱 오차를 사용하여 제1 판별 모델의 손실을 계산하면, 제1 판별 모델의 일부분 손실은
Figure pat00014
로 표시될 수 있다.
제1 타겟 도메인 생성 글자를 제2 판별 모델에 입력하는 경우, 제2 판별 모델의 예상 출력은 0이어야 한다. 제2 판별 모델의 실제 출력은 Y*(쉽게 구분하기 위해, *를 구비한 파라미터를 사용하여 해당 파라미터가 모델에 의해 생성된 이미지와 관련됨을 표시하고, *를 구비하지 않는 파라미터를 사용하여 해당 파라미터가 실제 이미지와 관련됨을 표시할 수 있음)이고, 평균 제곱 오차를 사용하여 제2 판별 모델의 손실을 계산하면, 제2 판별 모델의 일부분 손실은
Figure pat00015
로 표시될 수 있다.
제1 타겟 도메인 생성 글자를 제2 판별 모델에 입력하는 경우, 제1 생성 모델은 제2 판별 모델의 출력이 1인 것을 희망한다. 제2 판별 모델의 실제 출력은 Y*이고, 평균 제곱 오차를 사용하여 제1 생성 모델의 손실을 계산하면, 제1 생성 모델의 일부분 손실은
Figure pat00016
로 표시될 수 있고, 해당 손실은 제1 생성 모델의 적대적 손실(adversarial loss)일 수 있다.
소스 도메인 샘플 글자를 제1 생성 모델에 입력하여 획득한 제1 소스 도메인 생성 글자의 스타일만이 변환되고, 콘텐츠가 변경되지 않도록 보장하기 위해, 제1 생성 모델에 하나의 순환 일관성 손실(cycle-consistency loss)을 증가할 수 있다. 해당 손실은 소스 도메인 샘플 글자 및 제1 소스 도메인 생성 글자 사이의 차이에 따라 계산되어 획득될 수 있다. 예를 들어, 소스 도메인 샘플 글자 및 제1 소스 도메인 생성 글자의 두 장의 이미지의 각 대응 픽셀점의 픽셀값의 차이를 계산하고, 절대값을 구하여, 각 픽셀점의 차이를 획득하며, 모든 픽셀점의 차이의 합을 구하여 제1 생성 모델의 순환 일관성 손실을 획득하고, L1A2B로 기록할 수 있다.
따라서, 제1 생성 모델의 일부분 손실은
Figure pat00017
이고, 다른 일부분 손실은 L1A2B이며, 상기 두 개의 부분의 손실의 합을 제1 생성 모델의 전체 손실 LA2B로 하고, 제1 생성 모델의 전체 손실 LA2B는 다음과 같은 등식(1)으로 표시될 수 있다.
Figure pat00018
(1)
도 4에 도시된 바와 같이, 폰트 생성 모델의 두 번째 순환 작업 과정은, 타겟 도메인 샘플 글자(예를 들어, 손글씨를 포함하는 이미지, 손글씨 이미지로 약칭함)를 제2 생성 모델에 입력하여, 제2 소스 도메인 생성 글자(예를 들어, 해서체 글자를 포함하는 이미지, 해서체 글자 이미지로 약칭함)를 획득한다. 제2 소스 도메인 생성 글자(해서체 글자 이미지)를 제1 생성 모델에 입력하여, 제2 타겟 도메인 생성 글자(손글씨 이미지)를 획득한다.
두 번째 순환 작업 과정에서, 타겟 도메인 샘플 글자는 실제 손글씨 이미지이고, 제2 타겟 도메인 생성 글자는 모델에 의해 생성된 손글씨 이미지이며, 가짜 손글씨 이미지로 칭할 수 있다. 제2 소스 도메인 생성 글자는 모델에 의해 생성된 해서체 글자 이미지이고, 가짜 해서체 글자 이미지로 칭할 수 있다. 트레이닝 과정에서, 타겟 도메인 샘플 글자를 진짜(Real)(예를 들어 값은 1임)로 표기하고, 제2 소스 도메인 생성 글자를 가짜(Fake)(예를 들어 값은 0임)로 표기할 수 있다.
타겟 도메인 샘플 글자를 제2 판별 모델에 입력하는 경우, 제2 판별 모델의 예상 출력은 1이어야 한다. 제2 판별 모델의 실제 출력은 Y이고, 평균 제곱 오차를 사용하여 제2 판별 모델의 손실을 계산하면, 제2 판별 모델의 일부분 손실은
Figure pat00019
로 표시될 수 있다.
제2 소스 도메인 생성 글자를 제1 판별 모델에 입력하는 경우, 제1 판별 모델의 예상 출력은 0이어야 한다. 제1 판별 모델의 실제 출력은 X*이고, 평균 제곱 오차를 사용하여 제1 판별 모델의 손실을 계산하면, 제1 판별 모델의 일부분 손실은
Figure pat00020
로 표시될 수 있다.
제2 소스 도메인 생성 글자를 제1 판별 모델에 입력하는 경우, 제2 생성 모델은 제1 판별 모델의 출력이 1인 것을 희망한다. 제1 판별 모델의 실제 출력은 X*이고, 평균 제곱 오차를 사용하여 제2 생성 모델의 손실을 계산하면, 제2 생성 모델의 일부분 손실은
Figure pat00021
로 표시될 수 있다.
타겟 도메인 샘플 글자를 제2 생성 모델에 입력하여 획득한 제2 타겟 도메인 생성 글자의 스타일만이 변환되고, 콘텐츠가 변경되지 않도록 보장하기 위해, 제2 생성 모델에 하나의 순환 일관성 손실(cycle-consistency loss)을 증가할 수 있다. 해당 손실은 타겟 도메인 샘플 글자 및 제2 타겟 도메인 생성 글자 사이의 차이에 따라 계산되어 획득될 수 있다. 예를 들어, 타겟 도메인 샘플 글자 및 제2 타겟 도메인 생성 글자의 두 장의 이미지의 각 대응 픽셀점의 픽셀값의 차이를 계산하고, 절대값을 구하여, 각 픽셀점의 차이를 획득하며, 모든 픽셀점의 차이의 합을 구하여 제2 생성 모델의 순환 일관성 손실을 획득하고, L1B2A로 기록할 수 있다.
따라서, 제2 생성 모델의 일부분 손실은
Figure pat00022
이고, 다른 일부분의 손실은 L1B2A이며, 상기 두 개의 부분의 손실의 합을 제2 생성 모델의 전체 손실 LB2A로 하고, 제2 생성 모델의 전체 손실 LB2A는 다음과 같은 등식(2)으로 표시될 수 있다.
Figure pat00023
(2)
제1 생성 모델의 전체 손실 LA2B 및 제2 생성 모델의 전체 손실 LB2A의 합을 폰트 생성 모델의 생성 손실로 할 수 있고, 생성 손실은 다음과 같은 등식(3)으로 표시될 수 있다.
Figure pat00024
(3)
여기서, LG는 폰트 생성 모델의 생성 손실을 표시하고, 제1 생성 모델 및 제2 생성 모델의 모델 파라미터를 조정하는데 사용될 수 있다.
폰트 생성 모델의 판별 손실은 제1 판별 모델의 판별 손실 및 제2 판별 모델의 판별 손실을 포함한다.
도 3에 따라 제1 판별 모델의 일부분 손실을
Figure pat00025
로 계산하고, 도 4에 따라 제1 판별 모델의 다른 일부분 손실을
Figure pat00026
로 계산하면, 두 개의 부분의 손실의 합을 제1 판별 모델의 판별 손실로 할 수 있고, 제1 판별 모델의 판별 손실 LA는 다음과 같은 등식(4)으로 표시될 수 있다.
Figure pat00027
(4)
제1 판별 모델의 판별 손실 LA는 제1 판별 모델의 모델 파라미터를 조정하는데 사용될 수 있다.
유사하게, 도 3에 따라 제2 판별 모델의 일부분 손실을
Figure pat00028
로 계산하고, 도 4에 따라 제2 판별 모델의 다른 일부분 손실을
Figure pat00029
로 계산하면, 두 개의 부분의 손실의 합을 제2 판별 모델의 판별 손실로 할 수 있고, 제2 판별 모델의 판별 손실 LB는 다음과 같은 등식(5)으로 표시될 수 있다.
Figure pat00030
(5)
제2 판별 모델의 판별 손실 LB는 제2 판별 모델의 모델 파라미터를 조정하는데 사용될 수 있다.
상기 기술 방안은, 폰트 생성 모델의 생성 손실을 이용하여 제1 생성 모델의 모델 파라미터를 업데이트하여, 폰트 생성 모델의 자체 구조에 따라 폰트 생성 모델을 최적화하기 때문에, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킬 수 있다.
도 5는 본 개시의 실시예에 의해 제공되는 제1 특징 손실의 가시화 효과의 개략도이다. 하나의 구체적인 예시에서, 도 5 중 (1)로 표시된 서브 도면에 도시된 바와 같이, 타겟 도메인 샘플 글자(501)는 실제로 손글씨 "神"를 포함하는 이미지이고, 즉 타겟 도메인 샘플 글자(501) 중의 글자 "神"는 사용자의 실제 손글씨이다. 제1 타겟 도메인 생성 글자(502)는 폰트 생성 모델에 의해 생성된 손글씨 "神"를 포함하는 이미지이고, 타겟 도메인 샘플 글자(501) 및 제1 타겟 도메인 생성 글자(502)의 크기는 모두 256*256이다. 타겟 도메인 샘플 글자(501) 및 제1 타겟 도메인 생성 글자(502)를 문자부호 분류 모델에 입력하고, 문자부호 분류 모델의 제1 타겟 특징층에서 각각 제1 샘플 글자 특징도 및 제1 생성 글자 특징도를 출력하며, 제1 샘플 글자 특징도 및 제1 생성 글자 특징도의 크기는 모두 64*64이고, 상기 두 장의 64*64의 이미지에 대해 픽셀 차이 계산을 수행한 후, 상기 두 장의 이미지 사이의 차이를 표시하는 열효과도(503)를 획득한다. 열효과도(503)도 64*64의 이미지이고, 열효과도(503)에서 색상이 어두운 부분일 수록 타겟 도메인 샘플 글자(501)와 제1 타겟 도메인 생성 글자(502) 사이의 차이가 더 크다는 것을 표시하기 때문에, 폰트 생성 모델이 열효과도(503) 중의 색상이 비교적 어두운 부위의 특징을 학습하는데 더 집중할 수 있도록 하므로, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킨다.
유사하게, 도 5 중 (2)로 표시된 서브 도면에 도시된 바와 같이, 타겟 도메인 샘플 글자(501) 및 제1 타겟 도메인 생성 글자(502)를 문자부호 분류 모델에 입력하고, 문자부호 분류 모델의 제2 타겟 특징층에서 각각 제1 샘플 글자 특징도 및 제1 생성 글자 특징도를 출력하며, 제1 샘플 글자 특징도 및 제1 생성 글자 특징도의 크기는 모두 32*32이고, 상기 두 장의 32*32의 이미지에 대해 픽셀 차이 계산을 수행한 후, 상기 두 장의 이미지 사이의 차이를 표시하는 열효과도(504)를 획득한다. 열효과도(504)도 32*32의 이미지이고, 열효과도(504)에서 색상이 어두운 부분일 수록 타겟 도메인 샘플 글자(501)와 제1 타겟 도메인 생성 글자(502) 사이의 차이가 더 크다는 것을 표시하기 때문에, 폰트 생성 모델이 열효과도(504) 중의 색상이 비교적 어두운 부위의 특징을 학습하는데 더 집중할 수 있도록 하므로, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킨다.
이해할 수 있는 것은, 열효과도(503)와 열효과도(504)를 결합하여, 폰트 생성 모델이 타겟 도메인 샘플 글자(501)와 제1 타겟 도메인 생성 글자(502) 사이의 차이가 비교적 큰 특징에 대한 학습을 함께 구현할 수 있도록 함으로써, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킨다.
도 6은 본 개시의 실시예에 의해 제공되는 제2 특징 손실의 가시화 효과의 개략도이다. 하나의 구체적인 예시에서, 도 6 중 (1)로 표시된 서브 도면에 도시된 바와 같이, 타겟 도메인 샘플 글자(601)는 실제로 손글씨 "留"를 포함하는 이미지이고, 즉 타겟 도메인 샘플 글자(601) 중의 글자 "留"는 사용자의 실제 손글씨이다. 제1 타겟 도메인 생성 글자(602)는 폰트 생성 모델에 의해 생성된 손글씨 "留"를 포함하는 이미지이고, 타겟 도메인 샘플 글자(601) 및 제1 타겟 도메인 생성 글자(602)의 크기는 모두 256*256이다. 타겟 도메인 샘플 글자(601) 및 제1 타겟 도메인 생성 글자(602)를 폰트 분류 모델에 입력하고, 폰트 분류 모델의 제1 타겟 특징층에서 각각 제2 샘플 글자 특징도 및 제2 생성 글자 특징도를 출력하며, 제2 샘플 글자 특징도 및 제2 생성 글자 특징도의 크기는 모두 64*64이고, 상기 두 장의 64*64의 이미지에 대해 픽셀 차이 계산을 수행한 후, 상기 두 장의 이미지 사이의 차이를 표시하는 열효과도(603)를 획득한다. 열효과도(603)도 64*64의 이미지이고, 열효과도(603)에서 색상이 어두운 부분일 수록 타겟 도메인 샘플 글자(601)와 제1 타겟 도메인 생성 글자(602) 사이의 차이가 더 크다는 것을 표시하기 때문에, 폰트 생성 모델이 열효과도(603) 중의 색상이 비교적 어두운 부위의 특징을 학습하는데 더 집중할 수 있도록 하므로, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킨다.
유사하게, 도 6 중 (2)로 표시된 서브 도면에 도시된 바와 같이, 타겟 도메인 샘플 글자(601) 및 제1 타겟 도메인 생성 글자(602)를 폰트 분류 모델에 입력하고, 폰트 분류 모델의 제2 타겟 특징층에서 각각 제2 샘플 글자 특징도 및 제2 생성 글자 특징도를 출력하며, 제2 샘플 글자 특징도 및 제2 생성 글자 특징도의 크기는 모두 32*32이고, 상기 두 장의 32*32의 이미지에 대해 픽셀 차이 계산을 수행한 후, 상기 두 장의 이미지 사이의 차이를 표시하는 열효과도(604)를 획득한다. 열효과도(604)도 32*32의 이미지이고, 열효과도(604)에서 색상이 어두운 부분일 수록 타겟 도메인 샘플 글자(601)와 제1 타겟 도메인 생성 글자(602) 사이의 차이가 더 크다는 것을 표시하기 때문에, 폰트 생성 모델이 열효과도(604) 중의 색상이 비교적 어두운 부위의 특징을 학습하는데 더 집중할 수 있도록 하므로, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킨다.
도 7은 본 개시의 실시예에 의해 제공되는 제2 특징 손실의 가시화 효과의 개략도이다. 다른 하나의 구체적인 예시에서, 도 7 중 (1)로 표시된 서브 도면에 도시된 바와 같이, 타겟 도메인 샘플 글자(701)는 실제로 손글씨 “
Figure pat00031
”를 포함하는 이미지이고, 즉 타겟 도메인 샘플 글자(701) 중의 글자 “
Figure pat00032
”는 사용자의 실제 손글씨이다. 제1 타겟 도메인 생성 글자(702)는 폰트 생성 모델에 의해 생성된 손글씨 “
Figure pat00033
”를 포함하는 이미지이고, 타겟 도메인 샘플 글자(701) 및 제1 타겟 도메인 생성 글자(702)의 크기는 모두 256*256이다. 타겟 도메인 샘플 글자(701) 및 제1 타겟 도메인 생성 글자(702)를 폰트 분류 모델에 입력하고, 폰트 분류 모델의 제1 타겟 특징층에서 각각 제2 샘플 글자 특징도 및 제2 생성 글자 특징도를 출력하며, 제2 샘플 글자 특징도 및 제2 생성 글자 특징도의 크기는 모두 64*64이고, 상기 두 장의 64*64의 이미지에 대해 픽셀 차이 계산을 수행한 후, 상기 두 장의 이미지 사이의 차이를 표시하는 열효과도(703)를 획득한다. 열효과도(703)도 64*64의 이미지이고, 열효과도(703)에서 색상이 어두운 부분일 수록 타겟 도메인 샘플 글자(701)와 제1 타겟 도메인 생성 글자(702) 사이의 차이가 더 크다는 것을 표시하기 때문에, 폰트 생성 모델이 열효과도(703) 중의 색상이 비교적 어두운 부위의 특징을 학습하는데 더 집중할 수 있도록 하므로, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킨다.
유사하게, 도 7 중 (2)로 표시된 서브 도면에 도시된 바와 같이, 타겟 도메인 샘플 글자(701) 및 제1 타겟 도메인 생성 글자(702)를 폰트 분류 모델에 입력하고, 폰트 분류 모델의 제2 타겟 특징층에서 각각 제2 샘플 글자 특징도 및 제2 생성 글자 특징도를 출력하며, 제2 샘플 글자 특징도 및 제2 생성 글자 특징도의 크기는 모두 32*32이고, 상기 두 장의 32*32의 이미지에 대해 픽셀 차이 계산을 수행한 후, 상기 두 장의 이미지 사이의 차이를 표시하는 열효과도(704)를 획득한다. 열효과도(704)도 32*32의 이미지이고, 열효과도(704)에서 색상이 어두운 부분일 수록 타겟 도메인 샘플 글자(701)와 제1 타겟 도메인 생성 글자(702) 사이의 차이가 더 크다는 것을 표시하기 때문에, 폰트 생성 모델이 열효과도(704) 중의 색상이 비교적 어두운 부위의 특징을 학습하는데 더 집중할 수 있도록 하므로, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킨다.
이해할 수 있는 것은, 열효과도(603)와 열효과도(604)를 결합하여, 폰트 생성 모델이 타겟 도메인 샘플 글자(601)와 제1 타겟 도메인 생성 글자(602) 사이의 차이가 비교적 큰 특징에 대한 학습을 함께 구현할 수 있도록 함으로써, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킨다. 마찬가지로, 열효과도(703)와 열효과도(704)를 결합하여, 폰트 생성 모델이 타겟 도메인 샘플 글자(701)와 제1 타겟 도메인 생성 글자(702) 사이의 차이가 비교적 큰 특징에 대한 학습을 함께 구현할 수 있도록 함으로써, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킨다.
도 8은 본 개시의 실시예에 의해 제공되는 폰트 생성 모델 트레이닝 방법의 원리도이다. 도 8에 도시된 바와 같이, 폰트 생성 모델의 전체 트레이닝 과정은 아래의 단계를 포함할 수 있다. 먼저 소스 도메인 샘플 글자를 폰트 생성 모델의 제1 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자 및 제1 소스 도메인 생성 글자를 획득하고, 타겟 도메인 샘플 글자를 폰트 생성 모델의 제2 생성 모델에 입력하여, 제2 타겟 도메인 생성 글자 및 제2 소스 도메인 생성 글자를 획득한다. 나아가 소스 도메인 샘플 글자, 제1 타겟 도메인 생성 글자, 제1 소스 도메인 생성 글자, 타겟 도메인 샘플 글자, 제2 타겟 도메인 생성 글자 및 제2 소스 도메인 생성 글자에 따라, 폰트 생성 모델의 생성 손실을 계산하여, 생성 손실에 따라 제1 생성 모델의 모델 파라미터를 업데이트함으로써, 폰트 생성 모델의 트레이닝을 구현한다. 폰트 생성 모델이 제1 차 트레이닝을 완성한 후, 제1 타겟 도메인 생성 글자를 미리 트레이닝된 문자부호 분류 모델에 입력하여, 폰트 생성 모델의 문자부호 손실을 획득하고; 제1 타겟 도메인 생성 글자 및 타겟 도메인 샘플 글자를 문자부호 분류 모델에 입력하여, 폰트 생성 모델의 제1 특징 손실을 획득한다. 마찬가지로, 제1 타겟 도메인 생성 글자 및 타겟 도메인 샘플 글자를 폰트 분류 모델에 입력하여, 폰트 생성 모델의 제2 특징 손실을 획득한다. 나아가, 제1 특징 손실 및/또는 제2 특징 손실에 따라 타겟 특징 손실을 결정하여, 상기 계산을 통해 획득한 문자부호 손실 및 타겟 특징 손실에 따라 제1 생성 모델의 모델 파라미터를 업데이트함으로써, 폰트 생성 모델의 트레이닝을 재차 구현할 수 있다. 설명해야 할 것은, 문자부호 손실 및 타겟 특징 손실에 따른 폰트 생성 모델의 트레이닝 과정은 동기적으로 수행될 수 있고, 선후 순서로 수행될 수도 있으며, 본 개시의 실시예는 이에 대해 한정하지 않는다.
상기 기술 방안은, 문자부호 손실 및 타겟 특징 손실을 이용하여 제1 생성 모델의 모델 파라미터를 업데이트함으로써, 폰트 생성 모델의 트레이닝 감독을 구현하기 때문에, 폰트 생성 모델이 오자를 생성하는 확률을 감소시키고, 폰트 생성 모델이 폰트를 생성하는 정확도 및 폰트 특징을 학습하는 능력을 향상시킬 수 있다.
도 9는 본 개시의 실시예에 의해 제공되는 문자부호 손실에 의해 트레이닝되어 획득된 폰트 생성 모델을 사용한 효과 비교 개략도이다. 하나의 구체적인 예시에서, 도 9에 도시된 바와 같이, (1)로 표시된 이미지는 문자부호 손실에 의해 제한된 폰트 생성 모델을 사용하여 생성되지 않은 손글씨 "伶"를 포함하는 이미지이다. (2)로 표시된 이미지는 문자부호 손실에 의해 제한된 폰트 생성 모델을 사용하여 생성된 손글씨 "伶"를 포함하는 이미지이다. (1)로 표시된 이미지 중의 글자 "伶"는 정확한 글자 "伶"보다 점 하나가 부족하고, (2)로 표시된 이미지 중의 글자 "伶"는 정확한 글자 "伶"이다. 따라서, 문자부호 손실에 의해 제한된 폰트 생성 모델을 사용하면 정확한 글자를 학습할 수 있으므로, 오자율을 감소시키고, 모델의 정확도를 향상시킨다.
도 10은 본 개시의 실시예에 의해 제공되는 제1 특징 손실에 의해 트레이닝되어 획득된 폰트 생성 모델을 사용한 효과 비교 개략도이다. 하나의 구체적인 예시에서, 도 10에 도시된 바와 같이, (1)로 표시된 이미지는 실제로 손글씨 “
Figure pat00034
”를 포함하는 이미지이고, 즉 (1)로 표시된 이미지 중의 글자 “
Figure pat00035
”는 사용자의 실제 손글씨이다. (2)로 표시된 이미지는 제1 특징 손실에 의해 제한된 폰트 생성 모델을 사용하여 생성되지 않은 손글씨 “
Figure pat00036
”를 포함하는 이미지이다. (3)으로 표시된 이미지는 제1 특징 손실에 의해 제한된 폰트 생성 모델을 사용하여 생성된 손글씨 “
Figure pat00037
”를 포함하는 이미지이다. (2)로 표시된 이미지 중의 글자 “
Figure pat00038
”와 비교하면, (3)으로 표시된 이미지 중의 글자 “
Figure pat00039
”는 실제 사용자가 손으로 쓴 글자 “
Figure pat00040
”(즉, (1)로 표시된 이미지 중의 글자 “
Figure pat00041
”)의 보다 많은 특징을 학습하였고, 실제 사용자가 손으로 쓴 글자 “
Figure pat00042
”와 더 유사하다.
도 11은 본 개시의 실시예에 의해 제공되는 제2 특징 손실에 의해 트레이닝되어 획득된 폰트 생성 모델을 사용한 효과 비교 개략도이다. 하나의 구체적인 예시에서, 도 11에 도시된 바와 같이, (1)로 표시된 이미지는 실제로 손글씨 "做"를 포함하는 이미지이고, 즉 (1)로 표시된 이미지 중의 글자 "做"는 사용자의 실제 손글씨이다. (2)로 표시된 이미지는 제2 특징 손실에 의해 제한된 폰트 생성 모델을 사용하여 생성되지 않은 손글씨 "做"를 포함하는 이미지이다. (3)으로 표시된 이미지는 제2 특징 손실에 의해 제한된 폰트 생성 모델을 사용하여 생성된 손글씨 "做"를 포함하는 이미지이다. (2)로 표시된 이미지 중의 글자 "做"와 비교하면, (3)으로 표시된 이미지 중의 글자 "做"는 실제 사용자가 손으로 쓴 글자 "做"(즉, (1)로 표시된 이미지 중의 글자 "做")의 보다 많은 특징을 학습하였고, 실제 사용자가 손으로 쓴 글자 "做"와 더 유사하다.
상기 기술 방안은, 생성 손실, 문자부호 손실 및 타겟 특징 손실 등 다양한 손실 유형을 이용하여 폰트 생성 모델을 트레이닝함으로써, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시키고, 오자 생성률을 감소시킬 수 있기 때문에, 폰트 생성 모델이 폰트를 생성하는 심미성 및 정확도를 향상시키는 바, 나아가 폰트 생성 모델이 폰트 레벨의 폰트를 생성하는 능력을 향상시킨다.
본 개시의 기술 방안에서, 언급된 사용자 개인 정보(예를 들어 사용자 폰트 정보 등)의 수집, 저장, 사용, 가공, 전송, 제공 및 공개 등 처리는 모두 관련 법규에 부합되고, 공서양속을 위반하지 않는다.
설명해야 할 것은, 상기 각 실시예의 각 기술특징 사이의 임의의 배열 조합도 본 개시의 보호 범위에 속한다.
하나의 예시에서, 도 12는 본 개시의 실시예에 의해 제공되는 폰트 라이브러리 구축 방법의 흐름도이고, 본 개시의 실시예는 다양한 유형의 특징 손실에 따라 트레이닝되어 최적화된 폰트 생성 모델을 이용하여 폰트 라이브러리를 구축하는 경우에 적용될 수 있으며, 해당 방법은 폰트 라이브러리 구축 장치에 의해 수행될 수 있고, 해당 장치는 소프트웨어 및/또는 하드웨어의 방식으로 구현될 수 있으며, 일반적으로 전자 설비에 통합될 수 있다. 해당 전자 설비는 단말 설비 또는 서버 설비 등일 수 있고, 본 개시의 실시예는 폰트 라이브러리 구축 방법을 수행하는 전자 설비의 유형을 한정하지 않는다. 상응하게, 도 12에 도시된 바와 같이, 해당 방법은 다음의 단계를 포함한다.
단계(S1210), 소스 도메인 입력 글자를 폰트 생성 모델에 입력하여, 타겟 도메인 새 글자를 획득한다.
여기서, 소스 도메인 입력 글자는 특정 소스 도메인 폰트의 일부 글자일 수 있고, 타겟 도메인 새 글자는 생성되어야 하는 타겟 도메인 폰트 스타일을 구비한 새로운 글자일 수 있다. 예시적으로, 소스 도메인 입력 글자는 해서체 글자 이미지일 수 있고, 새 글자는 손글씨 이미지일 수 있으며, 해서체 글자 이미지를 폰트 생성 모델에 입력하여, 손글씨 이미지를 획득할 수 있다. 폰트 생성 모델은 상기 임의의 실시예에 따른 폰트 생성 모델 트레이닝 방법을 통해 트레이닝되어 획득된다.
단계(S1220), 상기 타겟 도메인 새 글자에 기반하여 폰트 라이브러리를 구축한다.
예시적으로, 폰트 생성 모델에 의해 생성된 새로운 글자를 저장하여, 손글씨 폰트 스타일을 구비한 폰트 라이브러리를 구축할 수 있고, 해당 폰트 라이브러리는 입력법에 응용될 수 있으며, 사용자는 해당 폰트 라이브러리에 기반한 입력법을 사용하여 손글씨 폰트 스타일을 구비한 글자를 직접 획득할 수 있어, 사용자의 다양한 수요를 만족시킬 수 있으므로, 사용자 체험을 향상시킨다.
하나의 예시에서, 도 13은 본 개시의 실시예에 의해 제공되는 폰트 생성 모델 트레이닝 장치의 구조도이고, 본 개시의 실시예는 다양한 유형의 특징 손실에 따라 폰트 생성 모델을 트레이닝 및 최적화하는 경우에 적용될 수 있으며, 해당 장치는 소프트웨어 및/또는 하드웨어로 구현되고, 구체적으로 전자 설비에 구성된다. 해당 전자 설비는 단말 설비 또는 서버 설비 등일 수 있고, 본 개시의 실시예는 폰트 생성 모델 트레이닝 방법을 수행하는 전자 설비의 유형을 한정하지 않는다.
도 13에 도시된 바와 같은 폰트 생성 모델 트레이닝 장치(1300)는 제1 타겟 도메인 생성 글자 획득 모듈(1310), 제1 특징 손실 획득 모듈(1320), 제2 특징 손실 획득 모듈(1330), 타겟 특징 손실 획득 모듈(1340) 및 제1 모델 파라미터 업데이트 모듈(1350)을 포함한다.
제1 타겟 도메인 생성 글자 획득 모듈(1310)은 소스 도메인 샘플 글자를 폰트 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득하는데 사용된다.
제1 특징 손실 획득 모듈(1320)은 상기 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 제1 특징 손실을 획득하는데 사용된다.
제2 특징 손실 획득 모듈(1330)은 상기 제1 타겟 도메인 생성 글자 및 상기 타겟 도메인 샘플 글자를 폰트 분류 모델에 입력하여, 상기 폰트 생성 모델의 제2 특징 손실을 획득하는데 사용된다.
타겟 특징 손실 획득 모듈(1340)은 상기 제1 특징 손실 및/또는 상기 제2 특징 손실에 따라 타겟 특징 손실을 결정하는데 사용된다.
제1 모델 파라미터 업데이트 모듈(1350)은 상기 타겟 특징 손실에 따라 상기 폰트 생성 모델의 모델 파라미터를 업데이트하는데 사용된다.
본 개시의 실시예는 소스 도메인 샘플 글자를 폰트 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득하고, 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델 및 폰트 분류 모델에 각각 입력하여, 폰트 생성 모델의 제1 특징 손실 및 제2 특징 손실을 획득하여, 제1 특징 손실 및/또는 제2 특징 손실에 의해 결정된 타겟 특징 손실에 따라 폰트 생성 모델의 모델 파라미터를 업데이트함으로써, 폰트 생성 모델을 트레이닝한다. 폰트 생성 모델에 대한 트레이닝을 완성한 후, 타겟 소스 도메인 입력 글자를 폰트 생성 모델에 입력하여, 타겟 도메인 새 글자를 획득하게 되어, 타겟 도메인 새 글자에 기반하여 폰트 라이브러리를 구축하기 때문에, 종래의 폰트 생성 모델이 폰트 레벨의 폰트를 생성하기 어려운 문제를 해결하고, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킬 수 있으며, 나아가 폰트 생성 모델이 폰트 레벨의 폰트를 생성하는 능력을 향상시킨다.
선택적으로, 여기서, 상기 문자부호 분류 모델은 복수의 특징층을 포함하고; 제1 특징 손실 획득 모듈(1320)은 구체적으로 상기 제1 타겟 도메인 생성 글자를 상기 문자부호 분류 모델에 입력하여, 상기 문자부호 분류 모델의 각 특징층에서 출력된 제1 생성 글자 특징도를 획득하며; 상기 타겟 도메인 샘플 글자를 상기 문자부호 분류 모델에 입력하여, 상기 문자부호 분류 모델의 각 특징층에서 출력된 제1 샘플 글자 특징도를 획득하고; 타겟 특징층의 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 차이를 계산하여, 상기 제1 특징 손실을 획득하는데 사용된다.
선택적으로, 제1 특징 손실 획득 모듈(1320)은 구체적으로 상기 타겟 특징층의 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 픽셀 차이를 계산하여, 상기 타겟 특징층의 제1 픽셀 손실을 획득하고; 상기 타겟 특징층의 제1 픽셀 손실에 따라 상기 제1 특징 손실을 계산하는데 사용된다.
선택적으로, 제1 특징 손실 획득 모듈(1320)은 구체적으로 상기 제1 생성 글자 특징도 중의 각 위치의 픽셀점의 픽셀값과 상기 제1 샘플 글자 특징도 중의 대응 위치의 픽셀점의 픽셀값 사이의 차이값의 절대값을 계산하여, 각 위치의 픽셀점의 차이를 획득하고; 복수의 위치의 픽셀점의 차이에 따라, 상기 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 픽셀 차이를 결정하는데 사용된다.
선택적으로, 여기서, 상기 폰트 분류 모델은 복수의 특징층을 포함하고; 제2 특징 손실 획득 모듈(1330)은 구체적으로 상기 제1 타겟 도메인 생성 글자를 상기 폰트 분류 모델에 입력하여, 상기 폰트 분류 모델의 각 특징층에서 출력된 제2 생성 글자 특징도를 획득하며; 상기 타겟 도메인 샘플 글자를 상기 폰트 분류 모델에 입력하여, 상기 폰트 분류 모델의 각 특징층에서 출력된 제2 샘플 글자 특징도를 획득하고; 타겟 특징층의 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 차이를 계산하여, 상기 제2 특징 손실을 획득하는데 사용된다.
선택적으로, 제2 특징 손실 획득 모듈(1330)은 구체적으로 상기 타겟 특징층의 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 픽셀 차이를 계산하여, 상기 타겟 특징층의 제2 픽셀 손실을 획득하고; 상기 타겟 특징층의 제2 픽셀 손실에 따라 상기 제2 특징 손실을 계산하는데 사용된다.
선택적으로, 제2 특징 손실 획득 모듈(1330)은 구체적으로 상기 제2 생성 글자 특징도 중의 각 위치의 픽셀점의 픽셀값과 상기 제2 샘플 글자 특징도 중의 대응 위치의 픽셀점의 픽셀값 사이의 차이값의 절대값을 계산하여, 각 위치의 픽셀점의 차이를 획득하고; 복수의 위치의 픽셀점의 차이에 따라, 상기 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 픽셀 차이를 결정하는데 사용된다.
선택적으로, 상기 폰트 생성 모델은 순환 네트워크 생성 모델이고, 제1 생성 모델 및 제2 생성 모델을 포함하며; 제1 타겟 도메인 생성 글자 획득 모듈(1310)은 구체적으로 상기 소스 도메인 샘플 글자를 상기 제1 생성 모델에 입력하여, 상기 제1 타겟 도메인 생성 글자 및 제1 소스 도메인 생성 글자를 획득하는데 사용되고; 폰트 생성 모델 트레이닝 장치는 상기 타겟 도메인 샘플 글자를 상기 제2 생성 모델에 입력하여, 제2 타겟 도메인 생성 글자 및 제2 소스 도메인 생성 글자를 획득하기 위한 제2 타겟 도메인 생성 글자 획득 모듈; 상기 소스 도메인 샘플 글자, 상기 제1 타겟 도메인 생성 글자, 상기 제1 소스 도메인 생성 글자, 상기 타겟 도메인 샘플 글자, 상기 제2 타겟 도메인 생성 글자 및 상기 제2 소스 도메인 생성 글자에 따라, 상기 폰트 생성 모델의 생성 손실을 계산하기 위한 생성 손실 계산 모듈; 상기 생성 손실에 따라 상기 제1 생성 모델의 모델 파라미터를 업데이트하기 위한 제2 모델 파라미터 업데이트 모듈;을 더 포함한다.
선택적으로, 폰트 생성 모델 트레이닝 장치는 상기 제1 타겟 도메인 생성 글자를 상기 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 문자부호 손실을 계산하기 위한 문자부호 손실 획득 모듈을 더 포함하고; 제1 모델 파라미터 업데이트 모듈(1350)은 구체적으로 상기 문자부호 손실 및 상기 타겟 특징 손실에 따라 상기 제1 생성 모델의 모델 파라미터를 업데이트하는데 사용된다.
선택적으로, 상기 문자부호 손실 획득 모듈은 구체적으로 상기 제1 타겟 도메인 생성 글자를 상기 문자부호 분류 모델에 입력하여, 상기 제1 타겟 도메인 생성 글자의 생성 문자부호 벡터를 획득하고; 상기 생성 문자부호 벡터와 기설정된 표준 문자부호 벡터 사이의 차이에 따라, 상기 문자부호 손실을 계산하는데 사용된다.
선택적으로, 상기 문자부호 손실 획득 모듈은 구체적으로 아래의 공식에 따라 상기 문자부호 손실을 계산하는데 사용된다.
LC=-
Figure pat00043
여기서, LC는 문자부호 손실을 표시하고, xi는 생성 문자부호 벡터 중 아래첨자가 i인 요소를 표시하며, yi는 표준 문자부호 벡터 중 아래첨자가 i인 요소를 표시하고, i는 0보다 크거나 같고 n보다 작거나 같은 정수이며, n는 상기 생성 문자부호 벡터 및 상기 표준 문자부호 벡터 중의 요소 개수를 표시한다.
선택적으로, 상기 소스 도메인 샘플 글자는 타겟 소스 도메인 폰트 스타일을 구비한 이미지이고, 상기 타겟 도메인 샘플 글자는 타겟 도메인 폰트 스타일을 구비한 이미지이다.
상기 폰트 생성 모델 트레이닝 장치는 본 개시의 임의의 실시예에서 제공하는 폰트 생성 모델 트레이닝 방법을 수행할 수 있고, 방법을 수행하기 위한 상응한 기능 모듈 및 유리한 효과를 구비한다. 본 실시예에서 상세히 설명하지 않은 세부적인 기술 내용에 대해서는 본 개시의 임의의 실시예에서 제공하는 폰트 생성 모델 트레이닝 방법을 참조할 수 있다.
하나의 예시에서, 도 14는 본 개시의 실시예에 의해 제공되는 폰트 라이브러리 구축 장치의 구조도이고, 본 개시의 실시예는 다양한 유형의 특징 손실에 따라 트레이닝되어 최적화된 폰트 생성 모델을 이용하여 폰트 라이브러리를 구축하는 경우에 적용될 수 있으며, 해당 장치는 소프트웨어 및/또는 하드웨어로 구현되고, 구체적으로 전자 설비에 구성된다. 해당 전자 설비는 단말 설비 또는 서버 설비 등일 수 있다.
도 14에 도시된 바와 같은 폰트 라이브러리 구축 장치(1400)는 타겟 도메인 새 글자 획득 모듈(1410) 및 폰트 라이브러리 구축 모듈(1420)을 포함한다.
타겟 도메인 새 글자 획득 모듈(1410)은 소스 도메인 입력 글자를 폰트 생성 모델에 입력하여, 타겟 도메인 새 글자를 획득하는데 사용된다.
폰트 라이브러리 구축 모듈(1420)은 상기 타겟 도메인 새 글자에 기반하여 폰트 라이브러리를 구축하는데 사용된다.
여기서, 상기 폰트 생성 모델은 본 개시의 임의의 실시예에 따른 폰트 생성 모델 트레이닝 장치를 통해 트레이닝되어 획득된다.
본 개시의 실시예는 폰트 생성 모델에 의해 생성된 새로운 글자를 저장하여, 손글씨 폰트 스타일을 구비한 폰트 라이브러리를 구축하고, 해당 폰트 라이브러리는 입력법에 응용될 수 있으며, 사용자는 해당 폰트 라이브러리에 기반한 입력법을 사용하여 손글씨 폰트 스타일을 구비한 글자를 직접 획득할 수 있어, 사용자의 다양한 수요를 만족시킬 수 있으므로, 사용자 체험을 향상시킨다.
상기 폰트 라이브러리 구축 장치는 본 개시의 임의의 실시예에서 제공하는 폰트 라이브러리 구축 방법을 수행할 수 있고, 방법을 수행하기 위한 상응한 기능 모듈 및 유리한 효과를 구비한다. 본 실시예에서 상세히 설명하지 않은 세부적인 기술 내용에 대해서는 본 개시의 임의의 실시예에서 제공하는 폰트 라이브러리 구축 방법을 참조할 수 있다.
하나의 예시에서, 본 개시는 전자 설비, 판독 가능 저장 매체 및 컴퓨터 프로그램을 더 제공한다.
도 15는 본 개시의 실시예의 예시를 실시하기 위한 전자 설비(1500)의 예시적인 블록도를 도시한다. 전자 설비는 다양한 형태의 디지털 컴퓨터, 예를 들어, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크테이블, 개인용 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터를 의미한다. 전자 설비는 다양한 형태의 모바일 장치, 예를 들어, 개인 디지털 처리, 휴대 전화기, 스마트폰, 웨어러블 설비 및 기타 유사한 컴퓨팅 장치를 나타낼 수도 있다. 본 문에서 설명된 컴포넌트, 이들의 연결과 관계 및 이들의 기능은 단지 예시적인 것일 뿐, 본 문에서 기술 및/또는 요구한 본 개시의 실현을 제한하려는 의도가 아니다.
도 15에 도시된 바와 같이, 설비(1500)는 컴퓨팅 유닛을 포함하되, 이는 판독 전용 메모리(ROM)(1502)에 저장된 컴퓨터 프로그램 또는 저장 유닛(1508)으로부터 랜덤 액세스 메모리(RAM)(1503)에 로딩되는 컴퓨터 프로그램에 따라, 각종 적합한 동작 및 처리를 수행할 수 있다. RAM(1503)에는 설비(1500)의 조작에 필요한 다양한 프로그램 및 데이터가 저장될 수도 있다. 컴퓨팅 유닛, ROM(1502), 및 RAM(1503)은 버스(1504)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(1505)도 버스(1504)에 연결된다.
설비(1500) 중의 복수의 컴포넌트는 I/O 인터페이스(1505)에 연결되고, 해당 컴포넌트는 예를 들어 키패드, 마우스 등과 같은 입력 유닛(1506); 예를 들어 다양한 유형의 표시장치, 스피커 등과 같은 출력 유닛(1507); 예를 들어 자기디스크, 광디스크 등과 같은 저장 유닛(1508); 및 네트워크 카드, 모뎀, 무선통신 트랜시버 등과 같은 통신 유닛(1509)을 포함한다. 통신 유닛(1509)은 설비(1500)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 전기 통신망을 통해 기타 설비와 정보/데이터를 교환하는 것을 허용한다.
컴퓨팅 유닛은 처리 및 컴퓨팅 능력을 갖는 다양한 범용 및/또는 전용 처리 컴포넌트일 수 있다. 컴퓨팅 유닛의 일부 예시는 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 다양한 전용 인공 지능(AI) 컴퓨팅 칩, 기계 러닝 모델 알고리즘을 수행하는 다양한 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적합한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만, 이에 한정되지 않는다. 컴퓨팅 유닛은 위에서 설명한 각각의 방법 및 처리를 수행하고, 예를 들어, 폰트 생성 모델 트레이닝 방법 또는 폰트 라이브러리 구축 방법을 수행한다. 예를 들어, 일부 실시예에서, 폰트 생성 모델 트레이닝 방법 또는 폰트 라이브러리 구축 방법은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 이는 저장 유닛(1508)과 같은 기계 판독 가능 매체에 유형적으로 포함된다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전체는 ROM(1502) 및/또는 통신 유닛(1509)에 의해 설비(1500)에 로딩 및/또는 장착될 수 있다. 컴퓨터 프로그램이 RAM(1503)에 로딩되어 컴퓨팅 유닛에 의해 실행되는 경우, 위에서 설명한 폰트 생성 모델 트레이닝 방법 또는 폰트 라이브러리 구축 방법의 하나 이상의 단계를 수행할 수 있다. 대안적으로, 기타 실시예에서, 컴퓨팅 유닛은 기타 임의의 적합한 방식(예를 들어, 펌웨어를 통해)을 통해 폰트 생성 모델 트레이닝 방법 또는 폰트 라이브러리 구축 방법을 수행하도록 구성될 수 있다.
본 문에서 상술한 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래머블 게이트 어레이(FPGA), 주문형 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템온칩(SOC), 복합 프로그래머블 로직 설비(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있다. 이러한 각종 실시형태는 하나 이상의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 해당 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능한 프로세서를 포함하는 프로그램 가능한 시스템에서 실행 및/또는 해석(interpretating)될 수 있으며, 해당 프로그램 가능한 프로세서는 전용 또는 범용 프로그램 가능한 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치로 전송한다.
본 개시의 방법을 실시하기 위한 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합을 사용하여 작성될 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그램 가능한 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공되어, 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행되면, 흐름도 및/또는 블록도에 규정된 기능/조작이 실시될 수 있도록 한다. 프로그램 코드는 전체가 기계에서 실행되거나, 일부가 기계에서 실행되고, 독립적인 소프트웨어 패키지로서 일부가 기계에서 실행되고 일부가 원격 기계에서 실행되거나, 전부가 원격 기계 또는 서버에서 실행될 수 있다.
본 개시의 전문에서, 기계 판독 가능 매체는 유형 매체(tangible medium)일 수 있고, 이는 명령 실행 시스템, 장치 또는 설비에 의해 사용되거나, 명령 실행 시스템, 장치 또는 설비와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 설비, 또는 상기 내용의 임의의 적합한 조합을 포함할 수 있지만 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 보다 구체적인 예시는 하나 이상의 와이어에 기반한 전기적 연결, 휴대용 컴퓨터 디스크, 하드디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 및 프로그램 가능한 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 설비, 자기 저장 설비 또는 상기 내용의 임의의 적합한 조합을 포함한다.
사용자와의 인터랙션을 제공하기 위해, 여기서 설명된 시스템 및 기술을 컴퓨터에서 실시할 수 있고, 해당 컴퓨터는 사용자에게 정보를 표시하기 위한 표시장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시장치)모니터), 키보드 및 방향지시 장치(예를 들어, 마우스 또는 트랙볼)를 구비하며, 사용자는 해당 키보드 및 해당 방향지시 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 유형의 장치는 사용자와의 인터랙션을 제공할 수도 있고, 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있으며, 임의의 형태(사운드 입력, 음성 입력 또는 촉각 입력을 포함함)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술은 백엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프런트엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹브라우저를 구비하는 사용자 컴퓨터, 사용자는 해당 그래픽 사용자 인터페이스 또는 해당 웹브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 컴포넌트, 미들웨어 컴포넌트, 또는 프런트엔드 컴포넌트를 포함하는 임의의 조합의 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)으로 시스템의 컴포넌트를 서로 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광역 네트워크(WAN), 블록체인 네트워크 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 통상적으로 통신 네트워크를 통해 인터랙션을 수행한다. 클라이언트와 서버의 관계는 상응하는 컴퓨터에서 작동되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생된다. 서버는 클라우드 컴퓨팅 서버라고도 칭하는 클라우드 서버 또는 클라우드 컴퓨팅 서비스 체계 중의 호스트 제품인 클라우드 호스트일 수 있고, 종래의 물리적 호스트와 VPS 서비스에 존재하는 관리 난이도가 크고, 비즈니스 확장성이 약한 결함을 해결한다. 서버는 분산 시스템의 서버, 또는 블록체인을 결합한 서버일 수도 있다.
본 개시의 실시예는 소스 도메인 샘플 글자를 폰트 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득하고, 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델 및 폰트 분류 모델에 각각 입력하여, 폰트 생성 모델의 제1 특징 손실 및 제2 특징 손실을 획득하여, 제1 특징 손실 및/또는 제2 특징 손실에 의해 결정된 타겟 특징 손실에 따라 폰트 생성 모델의 모델 파라미터를 업데이트함으로써, 폰트 생성 모델을 트레이닝한다. 폰트 생성 모델에 대한 트레이닝을 완성한 후, 타겟 소스 도메인 입력 글자를 폰트 생성 모델에 입력하여, 타겟 도메인 새 글자를 획득하게 되어, 타겟 도메인 새 글자에 기반하여 폰트 라이브러리를 구축하기 때문에, 종래의 폰트 생성 모델이 폰트 레벨의 폰트를 생성하기 어려운 문제를 해결하고, 폰트 생성 모델이 폰트 특징을 학습하는 능력을 향상시킬 수 있으며, 나아가 폰트 생성 모델이 폰트 레벨의 폰트를 생성하는 능력을 향상시킨다.
상술한 각종 형태의 프로세스를 사용하여, 단계의 순서재배정, 추가 또는 삭제를 수행할 수 있음을 이해해야 한다. 예를 들어, 본 개시에 기재된 각 단계는 병렬로 수행될 수 있거나 순차적으로 수행될 수도 있거나 서로 다른 순서로 수행될 수도 있으며, 본 개시에서 개시한 기술 방안이 희망하는 결과를 달성하기만 하면 되기 때문에, 본 문에서는 이에 대해 한정하지 않는다.
상기 구체적인 실시형태는 본 개시의 보호 범위를 한정하지 않는다. 본 분야의 당업자는 설계 요구 및 기타 요소에 따라 다양한 수정, 조합, 부분 조합 및 대체가 가능함을 이해할 수 있을 것이다. 본 개시의 사상 및 원칙 내에서 이루어진 수정, 등가적 대체 및 개선 등은 모두 본 개시의 보호 범위 내에 포함되어야 한다.

Claims (17)

  1. 소스 도메인 샘플 글자를 폰트 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득하는 단계;
    상기 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 제1 특징 손실을 획득하는 단계;
    상기 제1 타겟 도메인 생성 글자 및 상기 타겟 도메인 샘플 글자를 폰트 분류 모델에 입력하여, 상기 폰트 생성 모델의 제2 특징 손실을 획득하는 단계;
    상기 제1 특징 손실과 상기 제2 특징 손실 중 하나 이상에 따라 타겟 특징 손실을 결정하는 단계;
    상기 타겟 특징 손실에 따라 상기 폰트 생성 모델의 모델 파라미터를 업데이트하는 단계;를 포함하는 것을 특징으로 하는 폰트 생성 모델 트레이닝 방법.
  2. 제 1 항에 있어서,
    상기 문자부호 분류 모델은 복수의 특징층을 포함하고;
    상기 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 제1 특징 손실을 획득하는 단계는,
    상기 제1 타겟 도메인 생성 글자를 상기 문자부호 분류 모델에 입력하여, 상기 문자부호 분류 모델의 각 특징층에서 출력된 제1 생성 글자 특징도를 획득하는 단계;
    상기 타겟 도메인 샘플 글자를 상기 문자부호 분류 모델에 입력하여, 상기 문자부호 분류 모델의 각 특징층에서 출력된 제1 샘플 글자 특징도를 획득하는 단계;
    타겟 특징층의 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 차이를 계산하여, 상기 제1 특징 손실을 획득하는 단계;를 포함하는 것을 특징으로 하는 폰트 생성 모델 트레이닝 방법.
  3. 제 2 항에 있어서,
    타겟 특징층의 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 차이를 계산하는 단계는,
    상기 타겟 특징층의 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 픽셀 차이를 계산하여, 상기 타겟 특징층의 제1 픽셀 손실을 획득하는 단계;
    상기 타겟 특징층의 제1 픽셀 손실에 따라 상기 제1 특징 손실을 계산하는 단계;를 포함하는 것을 특징으로 하는 폰트 생성 모델 트레이닝 방법.
  4. 제 3 항에 있어서,
    상기 타겟 특징층의 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 픽셀 차이를 계산하는 단계는,
    상기 제1 생성 글자 특징도 중의 각 위치의 픽셀점의 픽셀값과 상기 제1 샘플 글자 특징도 중의 대응 위치의 픽셀점의 픽셀값 사이의 차이값의 절대값을 계산하여, 각 위치의 픽셀점의 차이를 획득하는 단계;
    복수의 위치의 픽셀점의 차이에 따라, 상기 제1 생성 글자 특징도와 제1 샘플 글자 특징도 사이의 픽셀 차이를 결정하는 단계;를 포함하는 것을 특징으로 하는 폰트 생성 모델 트레이닝 방법.
  5. 제 1 항에 있어서,
    상기 폰트 분류 모델은 복수의 특징층을 포함하고;
    상기 제1 타겟 도메인 생성 글자 및 상기 타겟 도메인 샘플 글자를 폰트 분류 모델에 입력하여, 상기 폰트 생성 모델의 제2 특징 손실을 획득하는 단계는,
    상기 제1 타겟 도메인 생성 글자를 상기 폰트 분류 모델에 입력하여, 상기 폰트 분류 모델의 각 특징층에서 출력된 제2 생성 글자 특징도를 획득하는 단계;
    상기 타겟 도메인 샘플 글자를 상기 폰트 분류 모델에 입력하여, 상기 폰트 분류 모델의 각 특징층에서 출력된 제2 샘플 글자 특징도를 획득하는 단계;
    타겟 특징층의 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 차이를 계산하여, 상기 제2 특징 손실을 획득하는 단계;를 포함하는 것을 특징으로 하는 폰트 생성 모델 트레이닝 방법.
  6. 제 5 항에 있어서,
    타겟 특징층의 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 차이를 계산하는 단계는,
    상기 타겟 특징층의 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 픽셀 차이를 계산하여, 상기 타겟 특징층의 제2 픽셀 손실을 획득하는 단계;
    상기 타겟 특징층의 제2 픽셀 손실에 따라 상기 제2 특징 손실을 계산하는 단계;를 포함하는 것을 특징으로 하는 폰트 생성 모델 트레이닝 방법.
  7. 제 6 항에 있어서,
    상기 타겟 특징층의 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 픽셀 차이를 계산하는 단계는,
    상기 제2 생성 글자 특징도 중의 각 위치의 픽셀점의 픽셀값과 상기 제2 샘플 글자 특징도 중의 대응 위치의 픽셀점의 픽셀값 사이의 차이값의 절대값을 계산하여, 각 위치의 픽셀점의 차이를 획득하는 단계;
    복수의 위치의 픽셀점의 차이에 따라, 상기 제2 생성 글자 특징도와 제2 샘플 글자 특징도 사이의 픽셀 차이를 결정하는 단계;를 포함하는 것을 특징으로 하는 폰트 생성 모델 트레이닝 방법.
  8. 제 1 항에 있어서,
    상기 폰트 생성 모델은 순환 네트워크 생성 모델이고, 제1 생성 모델 및 제2 생성 모델을 포함하며;
    소스 도메인 샘플 글자를 폰트 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득하는 단계는,
    상기 소스 도메인 샘플 글자를 상기 제1 생성 모델에 입력하여, 상기 제1 타겟 도메인 생성 글자 및 제1 소스 도메인 생성 글자를 획득하는 단계를 포함하고,
    상기 방법은,
    상기 타겟 도메인 샘플 글자를 상기 제2 생성 모델에 입력하여, 제2 타겟 도메인 생성 글자 및 제2 소스 도메인 생성 글자를 획득하는 단계;
    상기 소스 도메인 샘플 글자, 상기 제1 타겟 도메인 생성 글자, 상기 제1 소스 도메인 생성 글자, 상기 타겟 도메인 샘플 글자, 상기 제2 타겟 도메인 생성 글자 및 상기 제2 소스 도메인 생성 글자에 따라, 상기 폰트 생성 모델의 생성 손실을 계산하는 단계;
    상기 생성 손실에 따라 상기 제1 생성 모델의 모델 파라미터를 업데이트하는 단계;를 더 포함하는 것을 특징으로 하는 폰트 생성 모델 트레이닝 방법.
  9. 제 8 항에 있어서,
    상기 제1 타겟 도메인 생성 글자를 상기 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 문자부호 손실을 계산하는 단계를 더 포함하고,
    상기 타겟 특징 손실에 따라 상기 폰트 생성 모델의 모델 파라미터를 업데이트하는 단계는,
    상기 문자부호 손실 및 상기 타겟 특징 손실에 따라 상기 제1 생성 모델의 모델 파라미터를 업데이트하는 단계를 포함하는 것을 특징으로 하는 폰트 생성 모델 트레이닝 방법.
  10. 제 9 항에 있어서,
    상기 제1 타겟 도메인 생성 글자를 상기 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 문자부호 손실을 계산하는 단계는,
    상기 제1 타겟 도메인 생성 글자를 상기 문자부호 분류 모델에 입력하여, 상기 제1 타겟 도메인 생성 글자의 생성 문자부호 벡터를 획득하는 단계;
    상기 생성 문자부호 벡터와 기설정된 표준 문자부호 벡터 사이의 차이에 따라, 상기 문자부호 손실을 계산하는 단계;를 포함하는 것을 특징으로 하는 폰트 생성 모델 트레이닝 방법.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 소스 도메인 샘플 글자는 타겟 소스 도메인 폰트 스타일을 구비한 이미지이고, 상기 타겟 도메인 샘플 글자는 타겟 도메인 폰트 스타일을 구비한 이미지인 것을 특징으로 하는 폰트 생성 모델 트레이닝 방법.
  12. 타겟 소스 도메인 입력 글자를 폰트 생성 모델에 입력하여, 타겟 도메인 새 글자를 획득하는 단계;
    상기 타겟 도메인 새 글자에 기반하여 폰트 라이브러리를 구축하는 단계;를 포함하되,
    여기서, 상기 폰트 생성 모델은 제 1 항 내지 제 10 항 중 어느 한 항에 따른 폰트 생성 모델 트레이닝 방법을 통해 트레이닝되어 획득되는 것을 특징으로 하는 폰트 라이브러리 구축 방법.
  13. 제 1 항 내지 제 10 항 중 어느 한 항에 따른 폰트 생성 모델 트레이닝 방법을 수행하기 위한 폰트 생성 모델 트레이닝 장치에 있어서,
    소스 도메인 샘플 글자를 폰트 생성 모델에 입력하여, 제1 타겟 도메인 생성 글자를 획득하기 위한 제1 타겟 도메인 생성 글자 획득 모듈;
    상기 제1 타겟 도메인 생성 글자 및 기설정된 타겟 도메인 샘플 글자를 문자부호 분류 모델에 입력하여, 상기 폰트 생성 모델의 제1 특징 손실을 획득하기 위한 제1 특징 손실 획득 모듈;
    상기 제1 타겟 도메인 생성 글자 및 상기 타겟 도메인 샘플 글자를 폰트 분류 모델에 입력하여, 상기 폰트 생성 모델의 제2 특징 손실을 획득하기 위한 제2 특징 손실 획득 모듈;
    상기 제1 특징 손실과 상기 제2 특징 손실 중 하나 이상에 따라 타겟 특징 손실을 결정하기 위한 타겟 특징 손실 획득 모듈;
    상기 타겟 특징 손실에 따라 상기 폰트 생성 모델의 모델 파라미터를 업데이트하기 위한 제1 모델 파라미터 업데이트 모듈;을 포함하는 것을 특징으로 하는 폰트 생성 모델 트레이닝 장치.
  14. 타겟 소스 도메인 입력 글자를 폰트 생성 모델에 입력하여, 타겟 도메인 새 글자를 획득하기 위한 타겟 도메인 새 글자 획득 모듈;
    상기 타겟 도메인 새 글자에 기반하여 폰트 라이브러리를 구축하기 위한 폰트 라이브러리 구축 모듈;을 포함하되,
    여기서, 상기 폰트 생성 모델은 제 13 항에 따른 폰트 생성 모델 트레이닝 장치를 통해 트레이닝되어 획득되는 것을 특징으로 하는 폰트 라이브러리 구축 장치.
  15. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신적으로 연결되는 메모리;를 포함하되, 여기서,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제 1 항 내지 제 10 항 중 어느 한 항에 따른 폰트 생성 모델 트레이닝 방법 또는 제 12 항에 따른 폰트 라이브러리 구축 방법을 수행하도록 하는 것을 특징으로 하는 전자 설비.
  16. 컴퓨터 명령이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 컴퓨터가 제 1 항 내지 제 10 항 중 어느 한 항에 따른 폰트 생성 모델 트레이닝 방법 또는 제 12 항에 따른 폰트 라이브러리 구축 방법을 수행하도록 하는 것을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체.
  17. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램 중의 컴퓨터 명령이 프로세서에 의해 실행될 경우, 제 1 항 내지 제 10 항 중 어느 한 항에 따른 폰트 생성 모델 트레이닝 방법 또는 제 12 항에 따른 폰트 라이브러리 구축 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.
KR1020220026073A 2021-09-09 2022-02-28 폰트 생성 모델 트레이닝 방법, 폰트 라이브러리 구축 방법, 장치 및 설비 KR20220034075A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111056559.2A CN113792851B (zh) 2021-09-09 2021-09-09 字体生成模型训练方法、字库建立方法、装置及设备
CN202111056559.2 2021-09-09

Publications (1)

Publication Number Publication Date
KR20220034075A true KR20220034075A (ko) 2022-03-17

Family

ID=78879800

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220026073A KR20220034075A (ko) 2021-09-09 2022-02-28 폰트 생성 모델 트레이닝 방법, 폰트 라이브러리 구축 방법, 장치 및 설비

Country Status (5)

Country Link
US (1) US20220237935A1 (ko)
EP (1) EP4047560A1 (ko)
JP (1) JP7282932B2 (ko)
KR (1) KR20220034075A (ko)
CN (1) CN113792851B (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11625932B2 (en) * 2020-08-31 2023-04-11 Adobe Inc. Organizing and representing a collection of fonts according to visual similarity utilizing machine learning
US11995906B2 (en) * 2022-03-02 2024-05-28 Capital One Services, Llc Techniques for generation of synthetic data with simulated handwriting
US11947896B2 (en) 2022-06-24 2024-04-02 Adobe Inc. Font recommendation
US11886809B1 (en) * 2022-10-31 2024-01-30 Adobe Inc. Identifying templates based on fonts
CN117472257B (zh) * 2023-12-28 2024-04-26 广东德远科技股份有限公司 一种基于ai算法的自动转正楷的方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710866B (zh) * 2018-06-04 2024-02-20 平安科技(深圳)有限公司 汉字模型训练方法、汉字识别方法、装置、设备及介质
CN109063720A (zh) * 2018-06-04 2018-12-21 平安科技(深圳)有限公司 手写字训练样本获取方法、装置、计算机设备及存储介质
CN109165376B (zh) * 2018-06-28 2023-07-18 西交利物浦大学 基于少量样本的风格字符生成方法
CN109615671A (zh) * 2018-10-25 2019-04-12 北京中关村科金技术有限公司 一种字库样本自动生成方法、计算机装置及可读存储介质
JP7513947B2 (ja) * 2019-08-08 2024-07-10 ブラザー工業株式会社 学習済みの機械学習モデル、画像データ生成装置、および、方法
CN111753493B (zh) * 2019-09-29 2024-08-02 西交利物浦大学 基于少量样本的内含多种归一化处理的风格字符生成方法
CN113095158A (zh) * 2021-03-23 2021-07-09 西安深信科创信息技术有限公司 一种基于对抗生成网络的笔迹生成方法及装置
CN113140017B (zh) * 2021-04-30 2023-09-15 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113140018B (zh) * 2021-04-30 2023-06-20 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113313022B (zh) * 2021-05-27 2023-11-10 北京百度网讯科技有限公司 文字识别模型的训练方法和识别图像中文字的方法

Also Published As

Publication number Publication date
CN113792851A (zh) 2021-12-14
EP4047560A1 (en) 2022-08-24
JP7282932B2 (ja) 2023-05-29
US20220237935A1 (en) 2022-07-28
JP2023039887A (ja) 2023-03-22
CN113792851B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
KR20220034075A (ko) 폰트 생성 모델 트레이닝 방법, 폰트 라이브러리 구축 방법, 장치 및 설비
JP7289942B2 (ja) フォント生成モデルトレーニング方法、フォントライブラリ作成方法、フォント生成モデルトレーニング装置、フォントライブラリ作成装置、電子機器、コンピュータ可読記憶媒体、及び、コンピュータプログラム
US20220004811A1 (en) Method and apparatus of training model, device, medium, and program product
EP4050569A1 (en) Model training method and apparatus, font library establishment method and apparatus, device and storage medium
US20220188637A1 (en) Method for training adversarial network model, method for building character library, electronic device, and storage medium
CN112926306B (zh) 文本纠错方法、装置、设备以及存储介质
US20210406579A1 (en) Model training method, identification method, device, storage medium and program product
EP4044127A2 (en) Model training method and apparatus, font library establishment method and apparatus, device and storage medium
KR20220034080A (ko) 순환 생성 네트워크 모델의 훈련 방법, 글자 라이브러리의 구축 방법 및 장치, 전자 기기, 저장 매체, 컴퓨터 프로그램
EP4040404A2 (en) Method and apparatus of generating font database, and method and apparatus of training neural network model
JP7384943B2 (ja) 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体
KR20220034076A (ko) 문자부호 생성 모델의 훈련 방법, 문자부호 생성 방법, 장치 및 설비
US20230206522A1 (en) Training method for handwritten text image generation mode, electronic device and storage medium
US20230154077A1 (en) Training method for character generation model, character generation method, apparatus and storage medium
US20230186599A1 (en) Image processing method and apparatus, device, medium and program product
WO2024040870A1 (zh) 文本图像生成、训练、文本图像处理方法以及电子设备
CN115630630B (zh) 语言模型处理方法、业务处理方法、装置、设备及介质
KR20240108328A (ko) 이미지 기반 인간 - 컴퓨터 상호작용 방법, 장치, 기기 및 저장매체