KR20230174530A - 딥러닝을 이용한 만화컷 자동 프로세스 - Google Patents

딥러닝을 이용한 만화컷 자동 프로세스 Download PDF

Info

Publication number
KR20230174530A
KR20230174530A KR1020220075584A KR20220075584A KR20230174530A KR 20230174530 A KR20230174530 A KR 20230174530A KR 1020220075584 A KR1020220075584 A KR 1020220075584A KR 20220075584 A KR20220075584 A KR 20220075584A KR 20230174530 A KR20230174530 A KR 20230174530A
Authority
KR
South Korea
Prior art keywords
cut
cuts
folder
learning
page
Prior art date
Application number
KR1020220075584A
Other languages
English (en)
Inventor
전달용
Original Assignee
(주)아이디어 콘서트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아이디어 콘서트 filed Critical (주)아이디어 콘서트
Priority to KR1020220075584A priority Critical patent/KR20230174530A/ko
Publication of KR20230174530A publication Critical patent/KR20230174530A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 (a)업로드한 원본 만화페이지를 입력받는 단계; (b)객체 분리 규칙을 학습한 딥러닝 기반 객체분리 학습모델을 사용해 입력받은 만화페이지를 객체분리하는 단계; 및 (c)객체분리된 산출물(컷, 인물, 말풍선, 배경)을 저장하는 단계를 포함한다.

Description

딥러닝을 이용한 만화컷 자동 프로세스{CARTOON CUT AUTO PROCESSING USING DEEP LEARNING}
본 발명은 딥러닝을 이용한 만화컷 자동 프로세스에 관한 것이다.
존에는 사용자가 만화를 소비하는 형태는 대부분 종이만화 형태의 만화책을 통해 이루어졌다. 그러나 최근에는 스마트폰/테블릿과 같은 모바일기기의가로 인해 만화를 웹툰&영상을 통해 소비하는 사용자가 훨씬 많아지게 되었다. 이는 웹툰&영상의 경우, 스마트폰/태블릿과 같은 모바일 기기만 있으면 바로 시청이 가능하여 접근성이 용이하고, 물질적인 형태가 없이 전자적문서로 되어있어 보관·관리가 쉽다는 장점에서 기인하여 콘텐츠 소비형태가 변화했다고 볼 수 있다.
이에 따라, 새롭게 제작되는 신작 콘텐츠는 제작 시점부터 소비자가 모바일 기기로 시청하는 것을 염두에 두고 웹툰이나 애니메이션 같은 영상콘텐츠로 만들어지는 추세이다.
그러나 이미 종이만화 형태로 출간된 이전 콘텐츠들의 경우, 현재 모바일 기기로 보기 위해서는 만화책을 스캔한 pdf스캔본을 통해 감상해야 한다. 그러나 pdf스캔본의 경우 스마트폰/태블릿 화면에 맞게 조정이 되지 않아 사용자가 감상하기 불편하고, pdf파일을 보기 위해서는 별도의 뷰어 프로그램을 설치해야 한다는 점에서 번거롭다는 단점이 있다.
이러한 문제점을 해결하고 모바일 기기 환경에서도 기존콘텐츠를 잘 감상하기 위해서는, 종이만화 -> 웹툰&영상 변환이 필요하고 이를 위해서는 컷을 분리해야만 한다. 분리된 컷을 세로로 배치하면 지금 우리가 감상하는 세로보기 웹툰이 되고, 세로로 배치한 뒤 페이지 단위로 자르면 좌·우로 넘기면서 가로보기 웹툰 제작도 가능하다. 그리고 컷을 배치하고 나서 컷들 사이에 줌인/줌아웃 같은 연출효과를 주면 이미지를 확대/축소 하면서 영상화할 수 있다. 즉, 기존콘텐츠를 현재의 모바일 기기 환경에 맞게 감상하려면, 컷분리기술이 반드시 필요하다.
종래에는 컷분리를 하기 위해 포토샵 프로그램을 사용하여, 스캔한 만화이미지를 Import 한 뒤, 해당 이미지의 컷과 객체를 사람이 일일이 개별 레이어로 분리하는 작업을 수동으로 진행해야 했다.
이와 같은 수동적 컷분리방식은 많은 인력과 시간을 필요로 하고, 들인 비용 대비 산출되는 결과물은 적어 비효율적이기에 많은 기성작가와 기존출판업체가 온라인 콘텐츠로의 변환을 망설이게 하는 높은 기술적 진입장벽으로 존재하였다.
본 발명은 통상적인 종이만화 내에 있는 직선/사선컷 및 예외케이스 컷에 대한 분리 규칙을 학습한 딥러닝 기반의 학습모델을 사용하여 입력받은 만화원본이미지를 자동 분리하는 프로그램 및 디지털 보기 방식의 편집 기술과 자동으로 번역할 수 있는 기술을 제공하는 것을 목적으로 한다.
본 발명의 실시예는 (a)업로드한 원본 만화페이지를 입력받는 단계; (b)객체 분리 규칙을 학습한 딥러닝 기반 객체분리 학습모델을 사용해 입력받은 만화페이지를 객체분리하는 단계; 및 (c)객체분리된 산출물(컷, 인물, 말풍선, 배경)을 저장하는 단계를 포함한다.
본 발명에 따르면, 만화 페이지내에 존재하는 거의 모든 종류의 직선/사선컷 그리고 분류하고자 설정한 예외케이스 컷에 해당하는 데이터 이미지를 입력하여 학습시킨 컷분리 학습모델을 기반으로 사용자가 입력한 만화 원본이미지에 대한 자동컷분리를 수행한다. 이는 다량의 만화페이지를 분리시키고자 할 경우, 수동작업에 비해 훨씬 빠르게 그리고 높은 분리 정확도를 가지고 컷분리를 완료할 수 있는 효과가 있다.
또한, 본 발명은 자동번역기술을 통해 기존에 사람이 일일이 텍스트에 대한 번역을 진행하던 수동·반복 작업을 자동으로 프로그램이 처리하도록 하여 번역작업에 대한 진입장벽을 낮추었다.
이에 따라, 본 발명은 종이만화 혹은 pdf형태로 되어있던 기존 콘텐츠를 온라인 문서로의 변환이 훨씬 용이하게 하여 기성작가의 창작물인 만화와 종이만화출판업체가 보유한 만화창작물을 디지털화 함으로써 온라인 시장 진출을 가속화할 수 있다. 또한, 자동번역 기술을 사용하여 저작한 온라인 콘텐츠(웹툰, 영상)를 번역하여 해외로 수출하거나 해외 플랫폼 사이트에 연재하여 추가 수익을 창출하는 효과를 기대할 수 있다.
도 1은 본 발명의 컷 분리 기능의 시스템 흐름도이다.
도 2는 이미지 인식 알고리즘 성능을 비교한 그래프이다.
도 3은 직선/사선컷 컷 분리 결과의 예시 도면이다.
도 4는 예외컷 컷분리를 예시한 도면이다.
도 5는 예외컷 컷분리 결과를 예시한 도면이다.
도 6은 저장 프로세스를 도시한 도면이다.
도 7은 번역 순서도이다.
이하에서는 본 발명의 바람직한 실시예를 설명한다.
도 1은 본 발명의 컷 분리 기능의 시스템 흐름도이다.
도 1을 참조하면, 본 발명은 데이터를 입력하는 입력수단, 입력한 데이터를 처리하는 처리수단, 데이터를 출력하는 출력수단을 갖춘 컴퓨터에 만화이미지를 입력받는 (a)단계, 입력받은 만화이미지를 컷분리 모델이 컷을 분리하는 (b)단계, 컷분리 후 나온 분리된 컷들을 서버에 저장하는 (c)단계로 실행시킬 수 있다.
(a)단계는 사용자가 업로드한 원본 만화페이지를 입력받는 단계를 의미한다. 사용자가 업로드한 만화이미지는 컷을 분리하고자 하는 이미지를 뜻하며 입력된 만화이미지들은 (b)단계의 컷분리 학습모델로 전달된다.
(b)단계는 컷분리 규칙을 학습한 딥러닝 기반 컷분리 학습모델을 사용해 입력받은 만화페이지를 컷분리하는 단계이다.
(b)단계는 다음과 같이 1) 컷의 영역을 인식하는 단계, 2) 컷의 영역별로 분류하는 단계, 3) 분류한 영역별로 실제로 분리하는 단계 총 3가지 과정을 거쳐 진행된다.
(b)단계에서 사용한 이미지 학습모델로는 이미지의 객체를 인식하고 분류하는 딥러닝 알고리즘인 Mask R-CNN을 사용하였다. 인공지능 알고리즘이 발전함에 따라 추후 향상된 알고리즘을 적용을 할 수 있도록 모듈화하여 교체가 가능하다.
(c)단계는 컷분리된 산출물(분리된 컷)을 저장하는 단계이다. 컷분리 서버내에 폴더를 생성하여 해당 폴더내에 산출물을 저장한 뒤, 해당 폴더에 접근할 수 있는 접속주소를 별도의 데이터베이스(DB)에 저장한다.
직선/사선컷은 만화컷의 외곽선이 직선/사선이며, 컷내 객체(인물, 말풍선등)가 다른컷을 침범하지 않는 유형의 만화컷을 의미한다.
본 발명은 직선/사선컷 분리 학습모델 구축을 ① 학습데이터 생성 -> ② 학습모델 알고리즘 선정 -> ③ 컷분리 학습모델 생성 하는 단계로서 진행할 수 있다.
여기서 학습 데이터는 딥러닝 알고리즘에 어떤 규칙이나 로직을 학습시키고자 할 때, 알고리즘의 참고서 역할을 하는 데이터로 해당 데이터를 학습함으로써 알고리즘은 동일한 유형의 데이터가 입력됐을 때 어떤 작업을 수행해야 하는지를 알게된다.
본 발명에서 학습데이터는 직선/사선컷을 자체 설정한 컷분리 규칙대로 라벨링한 데이터이며, 직선/사선컷은 컷외곽선을 기준으로 영역을 나누어 라벨링을 하였기에 해당 학습데이터를 학습한 알고리즘은 컷 외곽선을 기준으로 컷을 분리하게 된다.
또한, 본 발명은 직선/사선컷을 분리할 수 있는 학습모델을 구축하기 위해 딥러닝 이미지 인식 알고리즘을 사용하였다.
이미지 인식 알고리즘에는 R-FCN, FPN, Faster R-CNN, YOLO V3, Mask R-CNN 등 여러 가지 알고리즘이 존재하는데, 본 발명에서는 각 알고리즘마다 컷분리를 진행 하여 가장 높은 성능(분리정확도)을 보인 알고리즘을 학습모델로 사용하였다. 이는 도 2에 도시된 바와 같다.
도 2는 이미지 인식 알고리즘 성능을 비교한 그래프이다.
도 2를 참조하면, 본 발명은 본 발명에서는 알고리즘의 이미지 인식 기능 성능 비교를 위해 R-FCN, FPN, Faster R-CNN, YOLO V3, Mask R-CNN 알고리즘을 통한 컷분리를 진행하여 동일 epoch(학습횟수)에서의 mAP(분리정확도)를 비교하였다.
epoch(학습횟수)가 0 ~ 40회일때는, 각 알고리즘별로 성능차이가 크게 나지 않음을 확인할 수 있다. 그러나 epoch(학습횟수)를 40~100회로 늘려가면서, 각 알고리즘별로 성능차이가 크게 벌어졌고, 그 중에서 가장 높은 mAP(분리정확도)를 가진 Mask RCNN을 본 발명에서 컷분리 학습모델로 사용하게 되었다.
컷분리 학습모델의 생성은 준비한 학습데이터를 Mask-RCNN에 넣어 직선/사선컷을 컷분리하는 학습모델을 생성한다. 이와 같은 컷분리 학습 모델은 도 3에 일예가 예시되었다.
도 3은 직선/사선컷 컷 분리 결과의 예시 도면이다.
도 3을 참조하면, 컷분리 학습 모델은 생성 후, 해당 학습모델에 직선/사선컷 원본이미지를 입력하면, 직선/사선컷 에 대한 컷분리가 이루어진 것을 확인할 수 있다.
직선/사선컷에 대한 컷분리 정확도가 99%(mAP = 0.99)로 나와 직선/사선컷에 대한 컷분리가 매우 잘 이루어졌음을 확인하였다.
예외컷은 직선/사선컷이 아닌 모든 컷을 총칭하는 용어이며, 직선/사선컷이 아닌 모든 예외케이스 타입의 컷을 의미한다.
예외컷의 경우, 모든 예외케이스에 대한 컷분리 규칙을 설정하고 학습하는 것은 불가능하기 때문에 본 발명에서 컷분리하고자 한 예외케이스를 몇가지 설정하고 해당 유형의 예외케이스에 대한 컷분리 학습을 진행하였다.
예외컷 분리 학습모델 구축 과정은 ① 학습데이터 생성 -> ② 학습모델 알고리즘 선정 -> ③ 컷분리 학습모델 생성 단계로 진행된다.
이중 예외컷의 학습 데이터는 도 4를 참조하여 설명한다. 여기서 도 3은 예외 케이스 3종을 선정한 것이다.
도 4는 예외컷 컷분리를 예시한 도면이다.
도 4를 참조하면, 예외컷 3종은 1) 컷사이에 말풍선, 인물과 같은 객체가 방해물로 있는 케이스, 2) 큰컷 내 작은컷이 포함된 케이스, 3) 컷의 외곽선이 없는 케이스를 포함한다. 그리고 학습 데이터는 해당 케이스에 해당하는 만화컷만 라벨링하여 생성하였다.
본 발명은 기존 직선/사선컷 분리때 사용하였던 Mask R-CNN을 사용하여 해당 예외컷에 대한 컷분리를 수행하였다.
그러나, Mask R-CNN만을 학습모델로 사용했을 경우, 예외컷에 대한 분리정확도가 60~70% 정도에 불과해 직선/사선컷에 대한 분리정확도 99%에 비해 매우 성능이 낮아져 알고리즘에 대한 고도화 작업이 필요하다는 사실을 확인하였다.
그러므로 본 발명에서는 이미지 인식 알고리즘의 성능을 고도화시키기 위해 기존의 Mask-RCNN 알고리즘에 Convolution Layer를 추가한 뒤, ResNet101을 Image Recognizer 역할로 추가하였다.
ResNet은 VGG-19구조를 기반으로 Conv layer층을 추가한 뒤 layer 사이에 short cut을 추가한 형태의 객체 인식 알고리즘이다. ResNet 알고리즘을 학습모델에 추가한 이유는 보통의 이미지 인식 알고리즘은 인식할 객체가 많을수록 에러가 더 커지나, ResNet은 인식할 객체가 많아질수록 shortcut을 통해 에러율을 최소화하여 예외컷과 같이 인식할 객체가 많을수록 더 좋은 성능을 보이기 때문이다.
본 발명에서 ResNet101을 추가하여 고도화한 Mask R-CNN을 사용하여 예외컷을 학습한 결과, 예외컷 분리 정확도(mAP = 0.9283)가 93%로 나와 알고리즘 고도화전 분리정확도인 60~70%보다 30% 가까이 예외컷 인식 정확도가 향상됐음을 확인하였다.
컷분리 학습모델은 도 5를 참조하여 설명한다.
도 5는 예외컷 컷분리 결과를 예시한 도면이다.
도 5를 참조하면, 본 발명은 준비한 학습데이터를 고도화된 Mask-RCNN 알고리즘에 넣어 예외컷을 분리할 수 있는 학습모델을 생성하였다. 이후, 해당 학습모델에 예외컷 원본이미지를 입력하면, 도 5에 도시된 바와 같이 예외컷에 대한 컷분리가 이루어짐을 확인할 수 있다.
저장프로세스는 도 6을 참조하여 설명한다.
도 6은 저장 프로세스를 도시한 도면이다.
도 6을 참조하면, 저장 프로세스는 디렉토리 생성 단계, 폴더 생성 단계, 펄더 내 산출물 저장 단계, 접속주소 DB 전달 단계를 포함할 수 있다.
디렉토리 생성 단계는 컷분리를 통해 나온 산출물(분리된컷)을 서버내에 저장하기 위한 첫단계이다. 서버내 디렉토리(경로)를 생성하여 산출물을 저장할 공간을 생성한다. 컷분리를 하고서 나온 모든 산출물은 이 디렉토리 내에 저장된다.
디렉토리를 생성한 뒤, 해당 디렉토리의 도메인을 지정한다. 도메인이란 웹페이지 및 서버 등의 특정 파일이나 경로에 접속하기 위한 url주소로, 디렉토리에 도메인 주소가 할당되면 웹툰&영상화 작업을 하거나 번역작업 수행시 해당 도메인주소로 접속하여 분리된 컷을 가져올 수 있다.
본 발명은 컷분리 산출물이 저장되는 디렉토리의 주소를 data.ideaconcert.com/으로 설정하였다. 해당 디렉토리에 접속하여 컷분리 산출물을 가져오고자 할 경우,‘data.ideaconcert.com/폴더경로’로 접속하여 분리된 컷을 가져다 사용할 수 있다.
디렉토리 도메인 주소는 본 발명의 실시예를 보이고자 임시로 지정한 주소로, 향후 개발 및 제품 상용화 과정에서 도메인 주소를 변경할 수 있다.
폴더 생성 단계는 서버 디렉토리 내 분리된 컷을 담을 폴더를 생성한다. 폴더는 입력된 만화페이지수 만큼 생성하며, 폴더명은 페이지 넘버와 동일하게 한다. 전체 만화페이지수와 페이지 넘버는 컷분리서버로부터 받는다.
폴더를 전체 만화페이지수만큼 생성하는 이유는 분리된 컷을 만화페이지단위로 관리 하기 위함이다. 만약 만화 1페이지를 컷분리한다면, 서버 디렉토리 내에 페이지폴더 1이 생성되고 해당 폴더내에 1페이지 분리된 컷들이 저장되고, 만화 n번째 페이지를 컷분리한다면, 서버 디렉토리 내에 페이지폴더n이 생성되고 해당 폴더내 n번째 페이지에서 분리된 컷들이 저장되는 방식이다.
이와 같이 각 페이지별로 폴더를 만들어 그 안에 분리된 컷들을 저장하면, 이후 웹툰&영상 콘텐츠 저작시 특정 페이지의 컷을 가져오고 싶으면 해당 페이지의 폴더에 접속해 그 안의 컷들만 가져오면 되서 서버 과부하를 줄이고 컴퓨터가 빠르게 작업을 처리할 수 있다.
폴더내 산출물 저장 단계는 각 만화페이지별로 폴더가 생성되었으니, 각 페이지에 속한 컷을 해당 페이지폴더에 넣어주는 단계이다. 분리된 컷들이 어느 페이지에 속하는지는 컷들의 파일명을 보면 알 수 있다.
분리된 컷들의 파일명은 [페이지수_컷순서_0.jpg] 형태로 명명되어 있어서, 컷파일명의 맨앞의 페이지 숫자만 가져와서 해당 숫자와 같은 값을 가지는 페이지폴더에 산출물을 저장하도록 설정하였다.
접속주소 DB 전달 단계는 페이지 폴더 내 산출물 저장이 완료되었으면, 해당 폴더에 접근해 분리된 컷을 사용할 수 있는 접속주소를 저장해야 하는데 해당주소는 서버 디렉토리가 아니라 DB에 전달하여 DB가 저장하도록 하였다. DB안에는 이미지 저장이 안되므로, DB내에는 서버 디렉토리에 접근할 수 있는 경로만 전달하여 저장하도록 하였다.
서버에서 DB로 전달시 접속주소 데이터는 json형태로 전달한다.{ “img_list” : [“서버도메인/폴더경로.jpg”, “서버도메인/폴더경로.jpg” ...] }
본 발명은 자동번역이 가능하다. 이는도 7을 참조하여 설명한다.
도 7은 본 발명의 자동 번역 기능을 도시한 순서도이다.
도 7을 참조하면, 본 발명은 텍스트 추출단계와, 텍스트 번역 단계어, 번역 텍스트로 교체하는 교체 단계와, 번역 오류 수정 단계를 포함한다.
텍스트 추출 단계는 OpenCV-Python의 이미지 전처리 기술을 사용하여 말풍선 영역만 추출해 내었다. 그다음 추출한 말풍선 영역에서 텍스트를 추출하고자 하였다.
본 발명에서는 OCR기술을 사용하여 텍스트를 추출하였다. OCR기술은 텍스트를 인식하여 데이터로 치환하는 기술로, 해당 기술을 사용하면 텍스트 영역만 인식 하여 추출할 수 있다.
OCR 기술을 통해, 말풍선 내 텍스트를 추출하였다. 본 발명에서는 추출한 텍스트를 하나의 파일(.txt 파일)에 넣어 보관하여 이후 가공 및 관리가 편리하도록 하였다.
텍스트 번역 단계는 텍스트가 저장된 .txt파일을 통째로 자동번역 API로 넣을 수 없으므로, .txt파일내 텍스트를 json으로 변환하여 가공할 수 있는 상태로 만든 뒤 자동번역 API에 넣는 방법으로 자동번역 작업을 수행한다.
번역 텍스트로 교체하는 교체 단계는 웹툰화시 기존 텍스트 -> 번역 텍스트로 교체하기 위해서는 기존 텍스트를 지우고, 그 다음 번역된 텍스트로 교체해야 한다.
기존 텍스트는 이미 적혀있으므로 텍스트 삭제는 불가능하다. 그래서 본 발명에서는 텍스트가 적혀있는 말풍선을 말풍선내 배경색으로 말풍선을 다시 칠하는 방법으로 기존 텍스트를 지웠다.
해당 작업을 수행하기 위해서는 말풍선의 배경색을 학습하는 기술이 필요한데 본 발명에서는 GAN 기법을 활용하였다.
GAN 기법은 비지도학습에 사용되는 머신러닝 프레임워크 중 한 종류로, 2가지종류의 신경망을 가지고 학습을 하는 특징을 가지고 있다. GAN기법을 사용하면, 말풍선 배경색상을 학습하여 텍스트 영역을 배경색으로 칠해 지울수 있게 된다.
기존 텍스트를 지운다음 번역된 텍스트로 교체해야 하는데, 본 발명에서는 해당 작업을 DB내에 있는 한국어 텍스트를 저장하고 있는 .txt파일을 API로 번역을 돌려 번역된 텍스트를 가지고 있는 .txt파일로 변경하는 방식으로 수행하였다.
DB내의 .txt파일이 교체되면, 번역 프로그램은 DB내의 변경된 .txt파일 내에 있는 번역된 텍스트로 말풍선 내 텍스트 영역을 채우게 돼서 자동번역이 완성된다.
번역오류 수정 단계는 텍스트가 너무 길어져서 말풍선 바깥으로 나가는 에러가 발생하는데 본 발명에서는 이와 같은 에러를 텍스트 크기를 작게하거나, 말풍선을 크게 하여 텍스트가 다시 말풍선 영역 안으로 들어오게 하는 방식으로 해결하였다.
또한, 번역이 잘못된 경우를 대비하고자, 검수 단말을 더 구비할 수 있다. 검수 단말은 검수자가 번역된 내용을 확인 할 수 있도록 번역 내용을 출력한다.
또한, 영상화시 텍스트 추출은, 웹툰화시 텍스트 추출과 동일하게 Opencv를 사용하여 말풍선 영역만 분리하고, 해당 영역내에 있는 텍스트를 OCR을 사용해 추출하였다. 추출한 텍스트는 .txt파일로 만들어 DB안에 저장한다.
영상화시 텍스트 번역은 웹툰화시 텍스트 번역과 동일하게 .txt파일 내의 텍스트를 json으로 변환하여 자동번역 API에 넣어주는 방식으로 자동번역한다.
영상화시의 교체는 웹툰화시 번역과 마찬가지로, 기존 텍스트를 번역된 텍스트로 교체하기 위해서 기존 텍스트를 지우고 텍스트 파일을 교체한다.
본 발명에서는 영상화시 기존 텍스트를 지우기 위해 영상화시 빈 말?V선 이미지를 pixi.js(웹환경 영상화툴)의 elements에 담아 연출효과를 주어 기존에 말풍선이 있던 위치에 빈 말풍선을 넣는 방식으로 기존 텍스트를 지웠다. 그리고, 기존 텍스트를 지운 뒤, DB내 기존 텍스트가 담긴 파일을 번역된 텍스트가 담긴 파일로 교체하는 방법을 통해 영상화시 자동번역을 완료하였다.
영상화시 번역에서 텍스트 길이가 길어 말풍선의 영역을 벗어나는 오류가 발생한 경우, 본 발명에서는 기존 말풍선 이미지를 삭제하고 더 큰 말풍선 이미지를 pixi.js의 elements에 담아 영상에 넣어 오류를 해결하였다.
영상화시 번역오류는 웹툰화시 번역과 마찬가지로, 영상화 이전 번역된 텍스트를 보고 사람이 한번 더 검수하고 수정하는 과정을 추가하였다.
1.4 번역오류 수정

Claims (1)

  1. (a)업로드한 원본 만화페이지를 입력받는 단계;
    (b)객체 분리 규칙을 학습한 딥러닝 기반 객체분리 학습모델을 사용해 입력받은 만화페이지를 객체분리하는 단계; 및
    (c)객체분리된 산출물(컷, 인물, 말풍선, 배경)을 저장하는 단계를 포함하고
    (b)단계는
    직선/사선컷 객체 분리 단계와, 예외컷 객체 분리 단계를 포함하고,
    직선/사선컷 객체 분리 단계는
    학습데이터 생성 단계와, 학습모델 알고리즘 선정 단계와, 객체분리 학습모델 생성 단계를 포함하고,
    학습 데이터 생성 단계에서 학습 데이터는 직선/사선컷을 자체 설정한 객체분리 규칙대로 라벨링한 데이터이고, 직선/사선컷은 객체외곽선을 기준으로 영역을 나누어 라벨링을 한 것을 특징으로 하고,
    학습데이터를 학습한 알고리즘 선정 단계에서, 학습 모델 알고리즘은 ask-RCNN 알고리즘의 layer를 2단으로 늘린 것이며,
    예외컷 객체 분리 단계는
    객체외곽선을 기준으로 영역을 나누어 라벨링한 예외컷을 자체 설정한 객체 분리 규칙대로 라벨링한 학습 데이터를 생성하는 단계와, 학습모델 알고리즘 선정 단계와, 객체분리 학습 모델 생성 단계; 를 포함하고,
    c)단계는
    서버내 디렉토리(경로)를 생성하여 산출물을 저장할 공간을 생성하고, 디렉토리를 생성한 뒤, 해당 디렉토리의 도메인을 지정하는 단계;
    서버 디렉토리 내 분리된 컷을 담을 폴더를 생성하는 단계;
    각 만화페이지별로 페이지 폴더, 그리고 페이지폴더 내부에 하위폴더로 컷폴더와 객체폴더를 생성하여 객체와 페이지 및 속성 정보 중 적어도 하나 이상을 저장하는 단계; 및
    폴더내 산출물 저장이 완료되고 나면 각 폴더에 접근할 수 있는 접속주소를 json 형태로 DB에 전달하는 단계; 를 포함하는 딥러닝을 이용한 만화컷 자동 프로세스.


KR1020220075584A 2022-06-21 2022-06-21 딥러닝을 이용한 만화컷 자동 프로세스 KR20230174530A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220075584A KR20230174530A (ko) 2022-06-21 2022-06-21 딥러닝을 이용한 만화컷 자동 프로세스

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220075584A KR20230174530A (ko) 2022-06-21 2022-06-21 딥러닝을 이용한 만화컷 자동 프로세스

Publications (1)

Publication Number Publication Date
KR20230174530A true KR20230174530A (ko) 2023-12-28

Family

ID=89384977

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220075584A KR20230174530A (ko) 2022-06-21 2022-06-21 딥러닝을 이용한 만화컷 자동 프로세스

Country Status (1)

Country Link
KR (1) KR20230174530A (ko)

Similar Documents

Publication Publication Date Title
US10783367B2 (en) System and method for data extraction and searching
US10530718B2 (en) Conversational enterprise document editing
CN109933756B (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
JP4829920B2 (ja) フォーム自動埋込方法及び装置、グラフィカルユーザインターフェース装置
US8509563B2 (en) Generation of documents from images
US7370274B1 (en) System and method for formatting objects on a page of an electronic document by reference
US20050289182A1 (en) Document management system with enhanced intelligent document recognition capabilities
US20170220858A1 (en) Optical recognition of tables
CN105631393A (zh) 信息识别方法及装置
WO2013058397A1 (ja) 電子コミック編集装置及び方法
CN105824788A (zh) 一种将演示文稿文件转换为word文件的方法和系统
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN113807308A (zh) 作业批改方法、装置、设备、存储介质和计算机程序产品
CN114021543B (zh) 基于表格结构解析的文档比对分析方法及系统
CN112464907A (zh) 一种文档处理系统及方法
KR20230174530A (ko) 딥러닝을 이용한 만화컷 자동 프로세스
CN113486171B (zh) 一种图像处理方法及装置、电子设备
US11657221B2 (en) Display editing apparatus, server apparatus, display editing system, and non-transitory computer readable medium storing program
WO2007129288A2 (en) Electronic document reformatting
KR20220097619A (ko) 문서 기반 채팅 서비스 제공 시스템 및 그에 적용되는 문서 편집 방법
CN112364632A (zh) 图书校对方法和装置
CN112149679A (zh) 一种基于ocr文字识别提取公文要素的方法及装置
CN111046864A (zh) 一种合同扫描件五要素自动提取方法及系统
CN113255613B (zh) 判题方法、装置及计算机存储介质
US20230046344A1 (en) Systems, Methods, and Devices for a Form Converter