KR20240021428A - 자동 웹툰 번역 시스템 - Google Patents

자동 웹툰 번역 시스템 Download PDF

Info

Publication number
KR20240021428A
KR20240021428A KR1020220099737A KR20220099737A KR20240021428A KR 20240021428 A KR20240021428 A KR 20240021428A KR 1020220099737 A KR1020220099737 A KR 1020220099737A KR 20220099737 A KR20220099737 A KR 20220099737A KR 20240021428 A KR20240021428 A KR 20240021428A
Authority
KR
South Korea
Prior art keywords
webtoon
translation
context
original
text
Prior art date
Application number
KR1020220099737A
Other languages
English (en)
Inventor
이준형
Original Assignee
이준형
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이준형 filed Critical 이준형
Priority to KR1020220099737A priority Critical patent/KR20240021428A/ko
Publication of KR20240021428A publication Critical patent/KR20240021428A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 웹툰 번역 시 웹툰에 포함된 이미지 색상, 텍스트대사, 표정, 효과음을 이용하여 번역 문맥, 뉘앙스, 감정선, 분위기, 개성을 반영하여 번역을 좀 더 정확하게 할 수 있는 자동 웹툰 번역 시스템에 관한 것으로, 웹툰 원본 파일을 수신하는 원본 데이터 베이스와, 상기 원본 데이터 베이스에서 수신한 웹툰 원본 파일에서 텍스트와 텍스트 위치 정보를 추출하고, 상기 텍스트를 해당 국가의 언어 텍스트로 번역한 초벌 번역본을 생성하는 초벌 번역부와, 상기 원본 데이터 베이스에서 수신한 웹툰 원본 파일에서 웹툰의 장르 정보, 이미지 정보 및 시대 정보 중 적어도 하나 이상을 포함하는 기본정보를 추출하는 추출 데이터 베이스 및 상기 추출 데이터 베이스에서 추출한 웹툰 원본 파일의 기본정보에 대응하여 상기 초벌 번역부에서 번역한 초벌 번역본에 뉘앙스, 감정선, 분위기 및 개성을 포함하는 문맥을 반영하여 번역한 문맥 번역본을 생성하고, 상기 텍스트 위치 정보에 번역한 상기 문맥 번역본을 삽입하는 문맥 번역부를 포함하는 것을 특징으로 한다.

Description

자동 웹툰 번역 시스템{Automatic Webtoon Translation System}
본 발명은 자동 웹툰 번역 시스템에 관한 것으로, 더욱 상세하게는, 웹툰 번역 시 웹툰에 포함된 이미지 색상, 텍스트대사, 표정, 효과음을 이용하여 번역 문맥, 뉘앙스, 감정선, 분위기, 개성을 반영하여 번역을 좀 더 정확하게 할 수 있는 자동 웹툰 번역 시스템에 관한 것이다.
일반적으로, 번역은 한국의 수많은 콘텐츠(웹소설, 웹툰, 영상 자막)를 해외에 유통하여 외화를 벌고, 지식 부가가치 서비스로 성공하기 위해서 가장 중요한 기술이다.
그러나 상업적 진출을 위한 번역은 전문 인력을 동원하기 때문에 매우 비용이 비싸고, 시간이 오래 걸리는 비효율적인 문제점이 있다.
콘텐츠는 번역이 필요한 텍스트 양이 매우 많고(소설의 경우 10권이면 평균 150만자), 번역 비용이 텍스트 양에 비례한다.
기계 번역은 매우 빠르고 대량의 번역을 수행할 수 있지만, 단순한 의미 전달이 아니라 완성도가 있는 콘텐츠/문학을 위한 자연스러운 번역이 불가능하다.
특히, 웹툰의 번역은 색상, 말풍선의 효과음, 대사별 주요 표정 등에 따라 번역 문맥, 뉘앙스와 분위기가 많이 달라지므로 이러한 부분을 번역 시 완벽하게 반영하는 것이 불가능하다.
웹툰 콘텐츠 분야는 불법 도용, 유통에 매우 피해가 큰 분야인데 이러한 배경 때문에 출판사 등 저작권자는 해외 진출 사업에 있어서 원본 콘텐츠의 외부 반출 및 관리에 대해 고려해야할 리스크가 많다는 특성이 있다.
또한, 웹툰 콘텐츠 분야는 이미 번역의 대상인 텍스트대사가 비트맵 이미지에 동일한 비트맵 정보로 매몰되어 있어, 전통적인 번역 방법은 1) 수동으로 화면에서 글자를 드래그하여 추출하고, 2) 별도로 번역을 진행한 후, 3) 다시 수동으로 디자이너가 비트맵 이미지에 텍스트대사를 하나씩 씌우는 접근을 취하고 있어 실무적인 번역에 요구되는 시간과 요구 비용이 매우 높은 편이다.
양질의 한국 콘텐츠를 신속하게 번역하여 해외로 수출하는데 번역이 걸림돌이 되고 있다.
대한민국 등록특허공보 제10-1099196호
본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 웹툰 번역 시 웹툰에 포함된 이미지 색상, 텍스트대사, 표정, 효과음을 이용하여 번역 문맥, 뉘앙스, 감정선, 분위기, 개성을 반영하여 번역을 좀 더 정확하게 할 수 있는 자동 웹툰 번역 시스템을 제공하는 것이다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명의 기술분야에서 통상의 지식을 지닌 자에게 명확하게 이해될 수 있을 것이다.
본 발명은 상기의 목적을 달성하기 위해서, 웹툰 원본 파일을 수신하는 원본 데이터 베이스와, 상기 원본 데이터 베이스에서 수신한 웹툰 원본 파일에서 텍스트와 텍스트 위치 정보를 추출하고, 상기 텍스트를 해당 국가의 언어 텍스트로 번역한 초벌 번역본을 생성하는 초벌 번역부와, 상기 원본 데이터 베이스에서 수신한 웹툰 원본 파일에서 웹툰의 장르 정보, 이미지 정보 및 시대 정보 중 적어도 하나 이상을 포함하는 기본정보를 추출하는 추출 데이터 베이스 및 상기 추출 데이터 베이스에서 추출한 웹툰 원본 파일의 기본정보에 대응하여 상기 초벌 번역부에서 번역한 초벌 번역본에 뉘앙스, 감정선, 분위기 및 개성을 포함하는 문맥을 반영하여 번역한 문맥 번역본을 생성하고, 상기 텍스트 위치 정보에 번역한 상기 문맥 번역본을 삽입하는 문맥 번역부를 포함하는 것을 특징으로 한다.
또한, 상기 추출 데이터 베이스에서 추출하는 기본정보에 사용되는 문맥을 학습하는 문맥 학습 모듈과, 상기 문맥 학습 모듈에서 학습된 학습 정보를 분석하여 상기 웹툰 원본 파일의 기본정보에 대응되는 문맥으로 편집하는 문맥 편집 모듈을 포함하는 인공지능 번역부를 포함하는 것을 특징으로 한다.
또한, 상기 문맥 번역부는 상기 웹툰 원본 파일의 작가가 기제작한 웹툰이 있을 경우, 기제작한 웹툰에서 사용한 텍스트의 문맥에 일부 가중치를 설정하여 문맥 번역본을 생성하는 것을 특징으로 한다.
본 발명은 초벌 번역부에서 일차로 해당 국가 언어로 번역하고, 추출 데이터 베이스에서 웹툰의 기본정보를 추출하여 추출된 웹툰의 기본정보를 기준으로 문맥 번역부에서 추가로 뉘앙스, 감정선, 분위기 및 개성에 맞게 번역하여 웹툰의 성격에 맞게 번역하여 정확한 번역을 제공할 수 있는 효과를 제공한다.
또한, 인공지능 번역부를 통해서 문맥을 학습하고, 학습된 문맥을 편집하여, 빅데이터화 하여 추가적인 번역 작업 시 더욱 정확한 번역을 제공할 수 있는 효과를 제공한다.
도 1은 본 발명의 바람직한 일실시예에 따른 자동 웹툰 번역 시스템을 나타낸 구성도이다.
도 2는 본 발명의 바람직한 일실시예에 따른 자동 웹툰 번역 시스템을 나타낸 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
아래 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 내용을 상세히 설명한다. 도면에 관계없이 동일한 부재번호는 동일한 구성요소를 지칭하며, "및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.
비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도있음은 물론이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 바람직한 일실시예에 따른 자동 웹툰 번역 시스템을 나타낸 구성도이고, 도 2는 본 발명의 바람직한 일실시예에 따른 자동 웹툰 번역 시스템을 나타낸 순서도이다.
도 1 및 도 2에 도시된 바와 같이, 본 발명의 자동 웹툰 번역 시스템(1000)은 원본 데이터 베이스(100), 초벌 번역부(200), 추출 데이터 베이스(300) 및 문맥 번역부(400)를 포함하여 구성된다.
먼저, 상기 원본 데이터 베이스(100)는 웹툰 원본 파일을 수신하는 구성으로, 출판사 또는 저작권자가 업로드한 콘텐츠 원본 파일을 수신하여 저장하게 된다.
이때, 상기 원본 데이터 베이스(100)에 저장되는 콘텐츠 원본 파일은 암호화되어 저장될 수 있으며, 이미지와 텍스트를 구분하여 저장될 수 있다.
여기서, 상기 원본 데이터 베이스(100)는 내장된 OCR 엔진에 의해서 웹툰의 원본 언어 구조 및 위치 좌료를 인식 및 추출하여 저장한다.
다음으로, 상기 초벌 번역부(200)는 상기 원본 데이터 베이스(100)에서 수신한 웹툰 원본 파일에서 텍스트와 텍스트 위치 정보를 추출하고, 상기 텍스트를 해당 국가의 언어 텍스트로 번역한 초벌 번역본을 생성한다.
여기서, 상기 초벌 번역부(200)에서 번역하는 다양한 원본 파일은, 저장된 날짜, 매출 또는 중요 순위에 따라 우선 순위를 지정할 수 있다.
그리고 상기 초벌 번역부(200)는 웹툰 원본 파일에서 대사의 위치 정보를 별도로 저장하고 있으므로, 후술할 문맥 번역부(400)에서 이를 활용하여 문맥 번역본을 삽입하도록 한다.
또한, 상기 초벌 번역부(200)는 상기 웹툰 원본 파일의 텍스트를 기계적으로 번역하여 1차 번역을 수행하게 된다.
다음으로, 추출 데이터 베이스(300)는 상기 원본 데이터 베이스(100)에서 수신한 웹툰 원본 파일에서 웹툰의 장르 정보, 이미지 정보 및 시대 정보 중 적어도 하나 이상을 포함하는 기본정보를 추출하는 구성이다.
여기서, 상기 추출 데이터 베이스(300)는 상기 웹툰 원본 파일의 기본 정보를 추출하여, 장르 등을 확정짓도록 한다.
이때, 웹툰 원본 파일이 사극인 경우, 후술할 문맥 번역본에서 사극에 대응되는 대사로 번역하게 되고, 로맨스인 경우, 로맨스에 대응되는 대사로 번역하게 된다.
또한, 로맨스인 경우에도, 시대적 배경을 파악하여 그 시대에 사용되는 단어들을 선택하여 번역을 수행할 수 있도록 기본정보를 습득할 수 있게 된다.
다음으로, 상기 문맥 번역부(400)는 상기 추출 데이터 베이스(300)에서 추출한 웹툰 원본 파일의 기본정보에 대응하여 상기 초벌 번역부(200)에서 번역한 초벌 번역본에 뉘앙스, 감정선, 분위기 및 개성을 포함하는 문맥을 반영하여 번역한 문맥 번역본을 생성하고, 상기 텍스트 위치 정보에 번역한 상기 문맥 번역본을 삽입할 수 있다.
여기서, 상기 문맥 번역부(400)는 상기 초벌 번역부(200)에서 1차적으로 해당 국가의 언어로 번역된 초번 번역본을 상기 추출 데이터 베이스(300)에서 추출한 기본정보에 대응되도록 문맥 번역본으로 번역하게 된다.
이때, 상기 문맥 번역부(400)에서 번역되는 문맥 번역본은 감정 정보(기쁨, 분노, 슬픔, 혐오, 중립, 수치 등)를 장르, 이미지 및 시대 정보에 대응되도록 번역하여 이질감이 들지 않도록 번역할 수 있게 된다.
또한, 상기 문맥 번역부(400)는 상기 웹툰 원본 파일의 작가가 기제작한 웹툰이 있을 경우, 기제작한 웹툰에서 사용한 텍스트의 문맥에 일부 가중치를 설정하여 문맥 번역본을 생성하게 된다.
상세하게는, 상기 웹툰의 제작사가 사용하는 단어, 언어의 흐름 등을 참고하여 상기 문맥 번역본에 일정 가중치를 제공하여 번역할 수 있게 된다.
다음으로, 상기 인공지능 번역부(500)는 상기 추출 데이터 베이스(300)에서 추출하는 기본정보에 사용되는 문맥을 학습하는 문맥 학습 모듈과, 상기 문맥 학습 모듈(510)에서 학습된 학습 정보를 분석하여 상기 웹툰 원본 파일의 기본정보에 대응되는 문맥으로 편집하는 문맥 편집 모듈로 구성된다.
먼저, 상기 문맥 학습 모듈은 상기 추출 데이터 베이스(300)에 저장되는 각 웹툰 원본 파일에서의 기본정보에 대응되는 문맥들을 저장하여, 장르, 이미지 및 시대에 따라 사용되는 문맥들을 분석 및 저장하게 된다.
그리고 상기 문맥 편집 모듈에서는 상기 문맥 학습 모듈에서 확보한 문맥을 유사한 기본정보의 웹툰을 번역 시에 활용하도록 구성된다.
이에 따라, 추가적인 웹툰 번역을 수행할 때, 기존의 번역한 문맥을 활용하여 신속하고 정확하게 번역을 수행할 수 있게 된다.
이상과 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해되어야 한다.
1000 : 자동 웹툰 번역 시스템
100 : 원본 데이터 베이스
200 : 초벌 번역부
300 : 추출 데이터 베이스
400 : 문맥 번역부
500 : 인공지능 번역부

Claims (3)

  1. 웹툰 원본 파일을 수신하는 원본 데이터 베이스;
    상기 원본 데이터 베이스에서 수신한 웹툰 원본 파일에서 텍스트와 텍스트 위치 정보를 추출하고, 상기 텍스트를 해당 국가의 언어 텍스트로 번역한 초벌 번역본을 생성하는 초벌 번역부;
    상기 원본 데이터 베이스에서 수신한 웹툰 원본 파일에서 웹툰의 장르 정보, 이미지 정보 및 시대 정보 중 적어도 하나 이상을 포함하는 기본정보를 추출하는 추출 데이터 베이스; 및
    상기 추출 데이터 베이스에서 추출한 웹툰 원본 파일의 기본정보에 대응하여 상기 초벌 번역부에서 번역한 초벌 번역본에 뉘앙스, 감정선, 분위기 및 개성을 포함하는 문맥을 반영하여 번역한 문맥 번역본을 생성하고, 상기 텍스트 위치 정보에 번역한 상기 문맥 번역본을 삽입하는 문맥 번역부;를 포함하는 것을 특징으로 하는 자동 웹툰 번역 시스템.
  2. 제 1 항에 있어서,
    상기 추출 데이터 베이스에서 추출하는 기본정보에 사용되는 문맥을 학습하는 문맥 학습 모듈과, 상기 문맥 학습 모듈에서 학습된 학습 정보를 분석하여 상기 웹툰 원본 파일의 기본정보에 대응되는 문맥으로 편집하는 문맥 편집 모듈을 포함하는 인공지능 번역부;를 더 포함하는 것을 특징으로 하는 자동 웹툰 번역 시스템.
  3. 제 1 항에 있어서,
    상기 문맥 번역부는,
    상기 웹툰 원본 파일의 작가가 기제작한 웹툰이 있을 경우, 기제작한 웹툰에서 사용한 텍스트의 문맥에 일부 가중치를 설정하여 문맥 번역본을 생성하는 것을 특징으로 하는 자동 웹툰 번역 시스템.
KR1020220099737A 2022-08-10 2022-08-10 자동 웹툰 번역 시스템 KR20240021428A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220099737A KR20240021428A (ko) 2022-08-10 2022-08-10 자동 웹툰 번역 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220099737A KR20240021428A (ko) 2022-08-10 2022-08-10 자동 웹툰 번역 시스템

Publications (1)

Publication Number Publication Date
KR20240021428A true KR20240021428A (ko) 2024-02-19

Family

ID=90055855

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220099737A KR20240021428A (ko) 2022-08-10 2022-08-10 자동 웹툰 번역 시스템

Country Status (1)

Country Link
KR (1) KR20240021428A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101099196B1 (ko) 2003-06-20 2011-12-27 마이크로소프트 코포레이션 적응형 기계 번역

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101099196B1 (ko) 2003-06-20 2011-12-27 마이크로소프트 코포레이션 적응형 기계 번역

Similar Documents

Publication Publication Date Title
CN108960223B (zh) 基于票据智能识别自动生成凭证的方法
US8520889B2 (en) Automated generation of form definitions from hard-copy forms
US8494280B2 (en) Automated method for extracting highlighted regions in scanned source
US20100088605A1 (en) System and method for automatic improvement of electronic presentations
WO2006113989A1 (en) Comparison of documents containing graphic elements
JP7223574B2 (ja) マンガ生成システムおよびマンガ生成方法
US20150310269A1 (en) System and Method of Using Dynamic Variance Networks
KR101930400B1 (ko) 딥러닝 분석을 위한 모듈화시스템을 이용한 컨텐츠 제공 방법
CN107679038B (zh) 一种文本段落的抽取方法及装置
CN109685061A (zh) 适用于结构化的数学公式的识别方法
CN111859885A (zh) 一种法律判决书自动生成方法及系统
CN106815253A (zh) 一种基于混合数据类型数据的挖掘方法
Tymoshenko et al. Real-Time Ukrainian Text Recognition and Voicing.
WO2009087999A1 (ja) 目次構造特定装置
KR20240021428A (ko) 자동 웹툰 번역 시스템
KR102406098B1 (ko) 사중 팔레트 데이터 구조를 이용한 이미지 번역편집 시스템
CN109086440B (zh) 一种知识萃取的方法及系统
KR20240021426A (ko) 웹툰 컨텐츠 번역 시스템
CN104866607B (zh) 一种东巴文释读数据库建立方法
KR20230104492A (ko) 적응적 이미지 텍스트 변환 방법, 장치 및 시스템
JP2008033887A (ja) 文書データ処理装置
CN114861595A (zh) 一种基于矢量线条变换的个性字体生成方法
CN108388903B (zh) 一种基于多视角多特征的图像印象性预测方法
Soomro et al. Optical character recognition system for sindhi text: a survey
CN111783432A (zh) 信用证审单检查要点清单的生成方法及装置