KR102306344B1 - 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템 - Google Patents

삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템 Download PDF

Info

Publication number
KR102306344B1
KR102306344B1 KR1020210034738A KR20210034738A KR102306344B1 KR 102306344 B1 KR102306344 B1 KR 102306344B1 KR 1020210034738 A KR1020210034738 A KR 1020210034738A KR 20210034738 A KR20210034738 A KR 20210034738A KR 102306344 B1 KR102306344 B1 KR 102306344B1
Authority
KR
South Korea
Prior art keywords
translation
proofreading
corpus
data
rough
Prior art date
Application number
KR1020210034738A
Other languages
English (en)
Inventor
남지원
Original Assignee
남지원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 남지원 filed Critical 남지원
Priority to KR1020210034738A priority Critical patent/KR102306344B1/ko
Application granted granted Critical
Publication of KR102306344B1 publication Critical patent/KR102306344B1/ko
Priority to PCT/KR2022/002275 priority patent/WO2022196956A1/ko
Priority to US18/550,718 priority patent/US20240160861A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템은 초벌 번역, 딥러닝 기능을 이용한 강화 학습, 교정 번역을 통한 교정 데이터를 창출하여 상업적 해외 유통 및 수출이 가능한 문학, 웹툰, 영상 자막에 들어간 감정, 뉘앙스, 분위기, 은어, 말투, 작가의 의도, 문맥 등을 경제적으로 반영하고 이에 따라 독자로 하여금 의미 전달 수준이 아니라 실제 독서, 소비 가능한 고급 완성 수준을 번역 레벨을 개선할 수 있는 효과가 있다.
삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템은 24시간 내내 제한 없이 무인으로 유통 가능한 최종본을 생산할 수 있고, 특이점(뜻: 인공지능 최종진화, 완성됨)의 달성 과정을 통하여 최종 번역본의 완성 까지의 필수 단계인 교정과 검수의 요구 및 횟수는 상대적으로 줄어들게 되거나 필요 없게 됨으로써 경제성이 향상되는 효과가 있다.

Description

삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템{Transformer Translation System for Deep Learning Using Triple Sentence Pair}
본 발명은 번역 시스템에 관한 것으로서, 더욱 상세하게는 초벌 번역, 딥러닝 기능을 이용한 강화 학습, 교정 번역을 통한 교정 데이터를 창출하여 상업적 해외 유통 및 수출이 가능한 문학, 웹툰, 영상 자막에 들어간 감정, 뉘앙스, 분위기, 은어, 말투, 작가의 의도, 문맥 등을 반영하고 이에 따라 독자로 하여금 의미 전달 수준이 아니라 실제 독서, 소비 가능한 고급 완성 수준을 번역 레벨을 개선할 수 있는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템에 관한 것이다.
번역은 한국의 수많은 콘텐츠(웹소설, 웹툰, 영상 자막)를 해외에 유통하여 외화를 벌고, 지식 부가가치 서비스로 성공하기 위해서 가장 중요한 기술이다.
그러나 상업적 진출을 위한 번역은 전문 인력을 동원하기 때문에 매우 비용이 비싸고, 시간이 오래 걸리는 비효율적인 문제점이 있다.
콘텐츠는 번역이 필요한 텍스트 양이 매우 많고(소설의 경우 10권이면 평균 150만자), 번역 비용이 텍스트 양에 비례한다.
기계 번역은 매우 빠르고 대량의 번역을 수행할 수 있지만, 단순한 의미 전달이 아니라 완성도가 있는 콘텐츠/문학을 위한 자연스러운 번역이 불가능하다.
번역은 기계 학습을 수행한다고 해도 은어, 문맥, 소설의 감정선, 뉘앙스 등을 완벽하게 반영하는 것이 불가능에 가깝다. 또한, 우수한 수준의 기계 번역 시스템은 천문학적인 학습 비용(현재 자연어처리에 대표적인 GPT3의 경우 학습 비용만 50억 규모)이 요구된다. 비용 외에도 기계 번역의 경우 적합한 학습 데이터가 고갈되면 더 이상 발전하지 못한다는 한계가 있다.
콘텐츠 분야는 불법 도용, 유통에 매우 피해가 큰 분야인데 이러한 배경 때문에 출판사 등 저작권자는 해외 진출 사업에 있어서 원본 콘텐츠의 외부 반출 및 관리에 대해 고려해야할 리스크가 많다는 특성이 있다.
양질의 한국 콘텐츠를 신속하게 번역하여 해외로 수출하는데 번역이 걸림돌이 되고 있다.
한국 등록특허번호 제10-1099196호
이와 같은 문제점을 해결하기 위하여, 본 발명은 초벌 번역, 딥러닝 기능을 이용한 강화 학습, 교정 번역을 통한 교정 데이터를 창출하여 상업적 해외 유통 및 수출이 가능한 문학, 웹툰, 영상 자막에 들어간 감정, 뉘앙스, 분위기, 은어, 말투, 작가의 의도, 문맥 등을 반영하고 이에 따라 독자로 하여금 의미 전달 수준이 아니라 실제 독서, 소비 가능한 고급 완성 수준을 번역 레벨을 개선할 수 있는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템을 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 특징에 따른 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템은,
콘텐츠 원본 파일을 출판사 터미널을 통해 수신하여 저장하는 원본 콘텐츠 저장 데이터베이스;
상기 콘텐츠 원본 파일을 인공신경망의 딥러닝 알고리즘에 의해 기계 번역하여 초벌 번역 데이터를 생성하는 초벌 번역 장치;
상기 콘텐츠 원본 파일과 상기 초벌 번역 데이터를 불러와 병행하여 제1 화면에 표시하고, 상기 콘텐츠 원본 파일과 상기 초벌 번역 데이터를 비교하여 교정 작업을 수행한 교정 작업 데이터를 입력받아 저장하는 교정 스테이션 단말기; 및
상기 콘텐츠 원본 파일과 상기 교정 작업 데이터를 불러와 병행하여 제2 화면에 표시하고, 상기 콘텐츠 원본 파일과 상기 교정 작업 결과물을 비교하여 교정 검수 작업을 수행한 교정 검수 데이터를 입력받아 저장한다.
교정 검수 단말기로부터 수신한 교정 검수 데이터를 저장하는 최종 작업물 저장 데이터베이스; 및
상기 최종 작업물 저장 데이터베이스에 연동하여 상기 교정 검수 데이터를 최종 결과로 조회, 다운받을 수 있는 사용자 인터페이스를 제공하는 관리자 페이지 인터페이스를 더 포함한다.
교정 검수 단말기는 상기 교정 검수 데이터를 강화 학습에 사용될 데이터로 원본 언어 문장, 초벌 번역 문장, 상기 교정 검수 데이터인 교정 언어 문장의 3개의 짝으로 이루어진 삼중 번역 말뭉치로 생성하고, 교정 검수 단말기로부터 상기 삼중 번역 말뭉치를 수신하여 저장하는 교정 말뭉치 저장 데이터베이스를 더 포함한다.
교정 말뭉치 저장 데이터베이스로부터 상기 삼중 번역 말뭉치를 수신하고, 상기 교정 스테이션 단말기에서 교정 작업을 수행하기 전에, 강화 학습 번역 알고리즘을 이용하여 무인 자동 교정을 수행하는 강화 학습 번역부를 더 포함한다.
전술한 구성에 의하여, 본 발명은 삼중말뭉치를 자체적으로 발생시켜 영구적인 데이터 출처를 경제적으로 확보하고, 뉘앙스, 문맥, 감정, 은어 등 직접 호환성을 포함하여 교정 데이터를 창출할 수 있는 효과가 있다.
본 발명은 의미 전달 수준이 아니라 실제 독서, 소비 가능한 고급 완성 수준의 번역 레벨을 개선할 수 있는 효과가 있다.
본 발명은 삼중말뭉치를 중심으로 강화 학습에 기반한 무인 자동 교정이 이루어질 때, 2중 교정(원본 언어 문장-번역 교정 문장, 초벌 번역 문장-번역 교정 문장)으로 인해 정확도와 완성도가 개선되는 효과가 있다.
본 발명은 교정 스테이션 단말기에서 수익 창출과 동시에 데이터 출처를 발생시키기 때문에 외부 학습용 데이터에 대한 의존성이나 데이터 고갈에 대한 한계 없이 지속 가능한 기계 번역의 성장을 가능하게 하는 효과가 있다.
본 발명은 출판사가 해외 진출을 위한 원본 콘텐츠를 직접 업로드하여 블랙박스(Black Box) 모델에서 작업이 처리되고 모든 외부 교류가 로그(Log)로 남기 때문에 누출이나 소실에 대한 리스크가 관리되는 효과가 있다.
본 발명은 24시간 내내 제한 없이 무인으로 유통 가능한 최종본을 생산할 수 있고, 특이점(뜻: 인공지능 최종진화, 완성됨)의 달성 과정을 통하여 최종 번역본 완성 까지의 필수 단계인 교정과 검수의 요구 및 횟수는 상대적으로 줄어들게 되거나 필요 없게 됨으로써 경제성이 향상되는 효과가 있다.
도 1은 본 발명의 실시예에 따른 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 제1 실시예에 따른 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 방법을 나타낸 도면이다.
도 3은 본 발명의 실시예에 따른 교정 스테이션 단말기의 교정 스테이션 화면의 일례를 나타낸 도면이다.
도 4는 본 발명의 실시예에 따른 관리자 페이지 인터페이스의 일례를 나타낸 도면이다.
도 5는 본 발명의 제2 실시예에 따른 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 방법을 나타낸 도면이다.
도 6은 본 발명의 제2 실시예에 따른 강화 학습 번역부에서 강화 학습 번역 알고리즘을 수행하는 과정을 나타낸 도면이다.
도 7은 본 발명의 실시예에 따른 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 방법을 설명하기 위한 도면이다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 실시예에 따른 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템의 구성을 나타낸 도면이고, 도 2는 본 발명의 제1 실시예에 따른 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 방법을 나타낸 도면이고, 도 3은 본 발명의 실시예에 따른 교정 스테이션 단말기의 교정 스테이션 화면의 일례를 나타낸 도면이고, 도 4는 본 발명의 실시예에 따른 관리자 페이지 인터페이스의 일례를 나타낸 도면이다.
본 발명의 실시예에 따른 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템(100)은 출판사 터미널(110) 및 번역 제공 서버(120)를 포함한다.
번역 제공 서버(120)는 원본 콘텐츠 저장 데이터베이스(121), 초벌 번역 장치(122), 초벌 번역 저장 데이터베이스(123), 교정 스테이션 단말기(124), 교정 퍼포먼스 데이터베이스(124a), 초벌 번역 임시 데이터베이스(125), 제어부(126), 교정 검수 단말기(127), 최종 작업물 저장 데이터베이스(128), 관리자 페이지 인터페이스(129), 교정 말뭉치 저장 데이터베이스(129a) 및 강화 학습 번역부(130)를 포함한다.
사업 수행자와 해외 수출/유통 계약이 된 출판사/저작권자는 승인된 계정으로 웹 시스템인 출판사 터미널(110)을 통해 딥러닝 번역 서비스를 제공하는 번역 제공 플랫폼에 접속하여 자신의 아이디 인증을 통해 번역이 필요한 번역 대상물을 입력할 수 있다. 여기서, 사업 수행자는 번역되고 최종 검수된 최종 콘텐츠(해외 언어로 표기된 상태)를 해외 유통자에게 판매하여 수익을 올리고, 출판사/저작권자에게 수익금을 일부 분배하는 시스템의 직접 이용자이다.
출판사/저작권자는 한글 콘텐츠(웹소설, 웹툰, 영상 자막 추가) 저작권 소유자이고, 저작권 해외 수출 계약을 맺고, 원래의 텍스트나 콘텐츠를 공급할 이해 관계자이다.
출판사 터미널(110)은 출판사 전용 계정으로 웹 시스템에 로그인할 때 나오는 화면이며, 출판사/저작권자가 콘텐츠 원본 파일을 출판사 터미널(110)에 업로드한다.
출판사 터미널(110)은 콘텐츠 원본 파일을 번역 제공 서버(120)로 제공한다(S100).
원본 콘텐츠 저장 데이터베이스(121)는 출판사 터미널(110)을 통해 출판사/저작권자가 업로드한 콘텐츠 원본 파일을 저장한다(S101). 원본 콘텐츠 저장 데이터베이스(121)에 저장되는 콘텐츠 원본 파일은 인간이 알아볼 수 없는 형태로 암호화되어 저장될 수 있다.
초벌 번역 장치(122)는 원본 콘텐츠 저장 데이터베이스(121)로부터 콘텐츠 원본 파일을 자동으로 추출하여 24 시간 내내 서버 할당량에 따라 무인 초벌 번역(기계 번역)을 수행한다(S102).
이때, 작업 우선 순위는 콘텐츠 원본 파일이 저장된 날짜순, 데이터에 저장 시 태깅한 매출 순위, 중요 순위 또는 데이터의 규모를 기준으로 삼는다.
초벌 번역 장치(122)는 이미 어느 정도 범용성이 넓어진 기계 번역으로 구글이나 네이버 번역 API를 이용하거나, 지도 학습(Supervised Learning) 인공신경망의 인공지능을 통해 번역한다. 여기서, 딥러닝 알고리즘은 구체적으로 트랜스포머 딥러닝 신경망(Transformer Neural Network Algorithim)을 사용한다.
초벌 번역 장치(122)는 초벌 번역을 수행 시 번역 대상인 문장과 번역한 문장이 추후에도 짝으로 추적될 수 있도록 문장 단위로 별도 인덱싱(Indexing) 작업이 진행된다.
초벌 번역 저장 데이터베이스(123)는 초벌 번역 장치(122)에서 자동 번역된 초벌 번역 데이터를 추출하여 저장하고, 초벌 번역된 초벌 번역 데이터가 지속적으로 누적된다(S103).
교정 스테이션 단말기(124)는 인공지능기반의 교정시스템으로 초벌 번역 저장 데이터베이스(123)로부터 추출한 초벌 번역한 작업물과 원본 콘텐츠 저장 데이터베이스(121)로부터 불러온 콘텐츠 원본 파일을 제1 화면(교정 스테이션 화면; 도 3 참조)에 병행하여 표시하고 원본 언어 문장(예를 들어 한글)과 번역 대상 언어 문장(예를 들어 영문)으로 분류하여 구성한다.
교정 스테이션 단말기(124)는 원본 콘텐츠인 원본 언어 문장(예를 들어 한글)과 초벌 번역한 작업물인 번역 대상 언어 문장(예를 들어 영문)을 비교하여 교정을 수행한다.
교정 스테이션 단말기(124)에서 교정된 작업 데이터는 초벌번역 임시 데이터베이스(125)로 전송된다(S104).
이때 교정 스테이션 단말기(124)에서 교정된 작업의 상세내용들은 교정 퍼포먼스 데이터베이스(124a)로 동시에 전송되어 저장되며, 저장된 데이터는 관리자 페이지 인터페이스(129)와도 공유된다.
초벌 번역 임시 데이터베이스(125)는 교정 스테이션 단말기(124)로부터 교정 작업을 수행한 교정 작업 결과물인 교정 작업 데이터를 수신하여 저장한다(S105).
교정 검수 단말기(127)는 초벌 번역 임시 데이터베이스(125)로부터 추출한 교정 작업 데이터와 원본 콘텐츠 저장 데이터베이스(121)로부터 불러온 콘텐츠 원본 파일을 디스플레이부(미도시)에 병행하여 표시한다.
교정 검수 단말기(127)는 인공지능기반의 교정검수시스템으로 교정 작업 결과물인 교정 작업 데이터(예를들어 영문)를 읽어 나가며, 원본 콘텐츠(예를들어 한글 원문)와 대조해 무인 자동으로 교정 검수 작업을 수행한다.
교정 검수 단말기(127)는 교정 작업 데이터와 콘텐츠 원본 파일을 비교하여 문장 대 문장으로 교정 검수 작업을 수행하여서 얻은 최종 결과물인 교정 검수 데이터(예: 문장 말뭉치)를 최종 작업물 저장 데이터베이스(128)로 전송한다(S106).
이때, 교정 검수 단말기(127)에서 교정 검수된 최종 번역의 결과물인 교정 검수 데이터는 교정말뭉치 저장 데이터베이스(129a)로 동시에 전송되어 저장되며 저장된 데이터(문장 말뭉치)는 강화학습번역작업에 공유되어 강화 학습에 활용된다.
최종 작업물 저장 데이터베이스(128)는 초벌 번역된 작업물에 대해 무인 강화학습 교정 작업과 무인 교정 검수를 수행하여 번역이 마감된 최종 결과물인 교정 검수 데이터(상용 유통이 가능한 상태로 번역된 문장 말뭉치(예: 한-영 문장 짝))를 교정 검수 단말기(127)로부터 수신하여 저장한다(S107).
이때, 최종 작업물 저장 데이터베이스(128)에 저장되는 문장 말뭉치(예: 한-영 문장 짝)는 교정 스테이션 단말기(124)와 교정 검수 단말기(127)에 각각 하이라이트하여 표기되도록 한다.
상기의 번역이 마감된 최종 결과물인 교정 검수 데이터는 유통에 적용될 수 있을 정도로 번역이 완료된 교정 데이터로 교정 말뭉치 저장 데이터베이스(129a)에 저장된 후 번역의 정확성과 효율성을 향상시키기 위해 도입되는 딥러닝 강화학습 번역에서 재활용될 수 있는 말 뭉치 데이터이다.
도 4에 도시된 바와 같이, 관리자 페이지 인터페이스(129)는 최종 작업물 저장 데이터베이스(128)에 연동하여 번역 마감된 교정 검수 데이터를 최종 결과로 조회, 다운받을 수 있는 사용자 인터페이스를 제공한다(S108).
번역이 마감된 최종 결과물인 교정 검수 데이터에 의한 최종 텍스트본이나 번역본은 관리자 페이지 인터페이스(129)를 통해 해외 유통망에 업로드 되어 판매 유통시킬 수 있다. 여기서, 해외 유통망은 이미 해외언어(예: 영어)로 다양한 전자책, 웹소설, 웹툰 등 콘텐츠를 판매 중인 플랫폼이나 전자책 상점 등이 연계된 유통 네트워크를 의미하고, 번역 제공 서버(120)에서 번역 마감된 최종 결과물의 판매는 이 유통 네트워크에 의해 이루어진다.
관리자 페이지 인터페이스(129)는 해외 유통망 연계 API(111)를 통해 자동으로 텍스트가 업로드 되도록 설정할 수 있다(S109).
이외에도 관리자 페이지 인터페이스(129)는 번역제공서버(120)내의 데이터베이스와 시스템적으로 상호 연계되어 있으므로, 실무적 통합 관리도 가능하게 하고, 복잡한 문서와 데이터의 전달, 절차의 혼동, 비효율적인 소통, 보안과 저작권 소스 노출과 같은 문제를 해결할 수 있도록 인터페이스(소통) 한다.
도 5는 본 발명의 제2 실시예에 따른 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 방법을 나타낸 도면이고, 도 6은 본 발명의 제2 실시예에 따른 강화 학습 번역부에서 강화 학습 번역 알고리즘을 수행하는 과정을 나타낸 도면이다.
제2 실시예는 제1 실시예와 중복되는 단계의 설명을 생략하고, 차이점을 중심으로 상세하게 설명한다.
출판사 터미널(110)은 콘텐츠 원본 파일을 번역 제공 서버(120)로 제공한다(S200).
원본 콘텐츠 저장 데이터베이스(121)는 출판사 터미널(110)을 통해 출판사/저작권자가 업로드한 콘텐츠 원본 파일을 저장한다(S201).
초벌 번역 장치(122)는 원본 콘텐츠 저장 데이터베이스(121)로부터 콘텐츠 원본 파일을 자동으로 추출하여 24 시간 내내 서버 할당량에 따라 무인 초벌 번역(기계 번역)을 수행한다(S202).
초벌 번역 저장 데이터베이스(123)는 초벌 번역 장치(122)에서 자동 번역된 초벌 번역 데이터를 추출하여 저장하고, 초벌 번역된 초벌 번역 데이터가 지속적으로 누적된다(S203).
이처럼 초벌 번역 저장 데이터베이스(123)에 초벌 번역 데이터가 지속적으로 누적되고, 또한 교정 말뭉치 데이터베이스(129a)에서도 최종의 교정 검수 된 말뭉치들(신규데이터)이 누적되어 감에 따라 교정의 학습효과를 극대화할 수 있는 인프라의 구축도 가능하게 되어 더욱 더 정확하고 효과적인 번역을 완성할 수 있게 된다.
또한 본 발명의 시스템은 딥러닝 강화학습번역의 속성(번역횟수가 많아질수록 학습효과의 증대로 누적되는 신규데이터들도 많아질 것이므로 더욱 더 정확하고 효과적인 번역을 완성할 수 있다는 속성)을 스스로 갖게 되는 것이어서, 2차 초벌 번역의 완성도를 높게 하는 장점이 있다.
따라서, 본 발명의 시스템은 최종 번역본의 완성 까지의 필수 단계인 교정과 검수의 요구 및 횟수가 상대적으로 줄어들게 되어 번역 완성 속도가 지속적으로 향상되고 이에 따른 경제성 극대화란 효과도 얻을 수 있다.
초벌 번역 저장 데이터베이스(123)의 데이터와 원본 컨텐츠 데이터를 이용하여 교정 스테이션 단말기(124)에서 교정을 수행하기 전에, 2차 초벌 번역 요청의 신호가 제어부(126)에 전송될 수 있다.
이 경우 제어부(126)는 2차 초벌 번역 요청 신호가 수신되었는지를 판단한다(S204).
2차 초벌번역여부는 교정검수단말기(127)에서 교정검수가 끝나 번역이 마감된 앞서의 최종 작업데이터들로 저장된 교정말 뭉치 저장 데이터베이스(129a)에서 제어부(126)에 신호를 전송함으로써 이루어진다.
교정말 뭉치 저장 데이터베이스(129a)에서는 100만 건의 교정 학습 데이터가 저장되어 있는지를 확인하여 100만 건 이상의 교정 학습 데이터가 저장되어 있을 경우 제어부에 2차 초벌번역을 수행토록 요청하고 100만 건 이하일 경우엔 2차 초벌번역 요청신호를 보내지 않는다.
제어부(126)는 교정말 뭉치 저장 데이터베이스(129a)로부터 2차 초벌 번역 요청 신호가 수신되었는지를 판단한 후 교정 퍼포먼스 데이터베이스(124a)로부터 2차 번역을 수행할 번역 알고리즘의 선택을 요청한다.
교정 퍼포먼스 데이터베이스(124a)는 교정 말뭉치 저장 DB의 2차번역 요청 신호에 의해 제어부가 요청시 번역될 장르(예: 현대물, 판타지, 자서전, 일상물, 액션물, 전략물 등등)와 번역 알고리즘(예: 1. Transfomer 알고리즘, 2. CNN 은닉신경망 알고리즘, 3. GPT-계열 알고리즘, 4. ALBLEU 방식 형태소 분석 알고리즘 등)간의 궁합(매칭)도를 1) 계산 효율성, 2) 장르 적합성(번역 신뢰도가 100%에 가장 근접된 알고리즘)등을 판단 기준으로 하여 선택된 번역 알고리즘을 제어부(126)에 전송한다.
이때 계산 효율성이나 장르 적합성은 각 장르 별로 유독 두드러지는 장르 특화 단어, 문맥 흐름 특성, 분위기, 감정, 뉘앙스 등의 번역에서 신뢰도 정도를 고려한다.
제어부(126)는 2차 초벌 번역 요청에 대한 조건과 번역 알고리즘의 선택이 확인되면 강화 학습 번역부(130)에 강화학습번역요청 신호를 전송한다.
강화 학습 번역부(130)는 교정 퍼포먼스 데이터베이스(124a)에서 선택한 강화 학습 번역 알고리즘을 이용하여 강화 학습을 통한 번역 교정을 수행한다(S207).
본 발명의 제2 실시예에 따른 강화 학습 번역부에서 강화 학습 번역 알고리즘을 수행하는 단계 S207의 상세한 내용은 별도로 후술된다.
강화 학습 번역 알고리즘은 딥러닝을 이용한 방식으로 입력 문장과 출력 문장을 하나의 쌍으로 두고, 가장 적합한 표현 및 번역 결과를 찾는 기술이다. 딥러닝 기술은 기계 학습을 위해 1. Transfomer 알고리즘, 2. CNN 은닉신경망 알고리즘, 3. GPT-계열 알고리즘, 4. ALBLEU 방식 형태소 분석 알고리즘 등을 병행하여 활용한다.
제어부(126)는 2차 초벌 번역 요청 신호를 수신하지 못하는 경우, 교정 말뭉치 저장 데이터베이스(129a)를 통해 신규 데이터가 존재하는지 판단한다(S205).
제어부(126)는 교정 말뭉치 저장 데이터베이스(129a)에 신규 데이터가 존재하는 경우, 강화 학습 번역부(130)에서 강화 학습 번역 알고리즘의 딥러닝 기능을 이용하여 데이터 학습한다(S206).
만일 2차 초벌 번역 요청 신호가 수신되지 않고, 교정 말뭉치 데이터베이스에 신규데이터가 없을 경우 본 발명의 실시예처럼 초벌 번역 저장 데이터는 교정스테이션 단말기로 곧바로 전송되어 교정작업이 수행되도록 한다.
교정 스테이션 단말기(124)는 원본 콘텐츠(예를 들어 한글 원문)과 초벌 번역한 작업물(예를 들어 영어 원문)을 비교하여 교정을 수행한다(도 3 화면 참조).
교정 스테이션 단말기(124)에서 교정된 작업 데이터는 초벌번역 임시 데이터베이스(125)로 전송된다(S208).
이때 교정 스테이션 단말기(124)에서 교정된 작업의 상세내용들은 교정 퍼포먼스 데이터베이스(124a)로 동시에 전송되어 저장되며, 저장된 데이터는 관리자 페이지 인터페이스(129)와도 공유된다.
초벌 번역 임시 데이터베이스(125)는 교정 스테이션 단말기(124)로부터 교정 작업을 수행한 교정 작업 결과물인 교정 작업 데이터를 수신하여 저장한다(S209).
교정 검수 단말기(127)는 초벌 번역 임시 데이터베이스(125)로부터 추출한 교정 작업 데이터와 원본 콘텐츠 저장 데이터베이스(121)로부터 불러온 콘텐츠 원본 파일을 디스플레이부(미도시)에 병행하여 표시한다.
교정 검수 단말기(127)는 인공지능기반의 교정검수시스템으로 교정 작업 결과물인 교정 작업 데이터(예를들어 영문)를 읽어 나가며, 원본 콘텐츠(예를들어 한글 원문)와 대조해 무인 자동으로 교정 검수 작업을 수행한다.
교정 검수 단말기(127)는 교정 작업 결과물과 콘텐츠 원본 파일을 비교하여 문장 대 문장으로 교정 검수 작업을 수행하여서 얻은 최종 결과물인 교정 검수 데이터(예: 문장 말뭉치)를 최종 작업물 저장 데이터베이스(128)로 전송한다(S210).
이때 교정 검수 단말기(127)에서 교정 검수된 최종 번역의 결과물인 교정 검수 데이터는 교정말뭉치 저장 데이터베이스(129a)로 동시에 전송되어 저장되며 저장된 데이터(문장 말뭉치)는 강화학습번역작업에 공유되어 강화 학습에 활용된다.
최종 작업물 저장 데이터베이스(128)는 초벌 번역된 작업물에 대해 무인 강화학습 교정 작업과 무인 교정 검수를 수행하여 번역이 마감된 최종 결과물인 교정 검수 데이터(상용 유통이 가능한 상태로 번역된 문장 말뭉치(예: 한-영 문장 짝))를 교정 검수 단말기(127)로부터 수신하여 저장한다(S211).
이때 최종 작업물 저장 데이터베이스(128)에 저장되는 문장 말뭉치(예: 한-영 문장 짝)는 교정 스테이션 단말기(124)와 교정 검수 단말기(127)에 각각 하이라이트하여 표기되도록 한다.
상기의 번역이 마감된 최종 결과물인 교정 검수 데이터는 유통에 적용될 수 있을 정도로 번역이 완료된 교정 데이터로 교정 말뭉치 저장 데이터베이스(129a)에 저장된 후 번역의 정확성과 효율성을 향상시키기 위해 도입되는 딥러닝 강화학습 번역에서 재활용될 수 있는 말 뭉치 데이터이다.
관리자 페이지 인터페이스(129)는 최종 작업물 저장 데이터베이스(128)에 연동하여 번역 마감된 교정 검수 데이터를 최종 결과로 조회, 다운받을 수 있는 사용자 인터페이스를 제공한다(S212).
번역이 마감된 최종 결과물인 교정 검수 데이터에 의한 최종 텍스트본이나 번역본은 관리자 페이지 인터페이스(129)를 통해 해외 유통망에 업로드 되어 판매 유통시킬 수 있다. 여기서, 해외 유통망은 이미 해외언어(예: 영어)로 다양한 전자책, 웹소설, 웹툰 등 콘텐츠를 판매 중인 플랫폼이나 전자책 상점 등이 연계된 유통 네트워크를 의미하고, 번역 제공 서버(120)에서 번역 마감된 최종 결과물의 판매는 이 유통 네트워크에 의해 이루어진다.
관리자 페이지 인터페이스(129)는 해외 유통망 연계 API(111)를 통해 자동으로 텍스트가 업로드 되어 해외 유통자에게 판매할 수 있다(S213).
이외에도 관리자 페이지 인터페이스(129)는 번역제공서버(120)내의 데이터베이스와 시스템적으로 상호 연계되어 있으므로, 실무적 통합 관리도 가능하게 하고, 복잡한 문서와 데이터의 전달, 절차의 혼동, 비효율적인 소통, 보안과 저작권 소스 노출과 같은 문제를 해결할 수 있도록 인터페이스(소통) 한다.
교정 검수 단말기(127)는 교정 검수 작업한 교정 검수 데이터를 삼중 번역 말뭉치를 생성한다.
삼중 번역 말뭉치는 강화 학습에 사용될 데이터로 원본 언어 문장, 초벌 번역 문장, 교정 검수 데이터인 교정 언어 문장의 3개의 짝으로 이루어진다.
교정 말뭉치 저장 데이터베이스(129a)는 교정 검수 단말기(127)로부터 삼중 번역 말뭉치를 수신하여 저장한다(S214).
교정 말뭉치 저장 데이터베이스(129a)는 저장된 삼중 번역 말뭉치를 강화 학습 번역부(130)로 전송한다.
교정 말뭉치 저장 데이터베이스(129a)에 저장된 삼중 번역 말뭉치는 강화 학습 번역 알고리즘에 투입되어 지속적으로 교정 능력을 강화하기 위한 수단으로 활용된다.
이때, 강화 학습 번역 알고리즘은 1. Transfomer 알고리즘, 2. CNN 은닉신경망 알고리즘, 3. GPT-계열 알고리즘, 4. ALBLEU 방식 형태소 분석 알고리즘 등을 병행하여 학습한다.
강화 학습 번역부(130)는 교정 스테이션 단말기(124)에서 교정 작업을 수행하기 전(즉, 초벌 번역 임시 데이터베이스(125)에 업로드 하기 전)에, 강화 학습 번역 알고리즘을 이용하여 무인 자동 교정을 수행한다(S207).
교정 스테이션 단말기(124)는 교정 작업 내역인 교정 퍼포먼스 정보를 생성하여 교정 퍼포먼스 데이터베이스(124a)로 전송한다(S215).
교정 퍼포먼스 정보는 주어진 시간(1일, 1달, 1년)에 얼마나 많은 텍스트를 교정할 수 있었는지, 얼마나 검수 수정율이 낮아 효율적으로 한 번에 적당한 번역 교정을 수행했는지를 나타낸다.
교정 퍼포먼스 데이터베이스(124a)에 저장된 결과물은 관리자 페이지 인터페이스(129)를 통해 보다 정확하고 효율적인 번역시스템의 구축을 위한 기초 데이터로 활용할 수 있도록 제공된다.
단계 S207의 강화 학습을 통한 번역 교정 과정을 상세하게 설명하면 다음과 같다.
제어부(126)는 교정 말뭉치 DB로부터 2차 초벌 번역 요청에 대한 응답 신호가 수신되었을 때 수신된 2차 초벌 번역 요청 신호를 강화 학습 번역부(130)로 전송한다(S204),
제어부(126)로부터 2차 초벌 번역 요청 신호가 수신되는 경우, 강화 학습 번역부(130)는 콘텐츠 원본 파일의 원본 언어(예: 한글)와, 교정 검수 데이터인 교정 번역 언어(예:영어)를 기준으로 교정하는지 판단한다(S216).
강화 학습 번역부(130)는 콘텐츠 원본 파일의 원본 언어와, 교정 검수 데이터인 교정 번역 언어를 기준으로 교정하는 경우, 원본 언어와 교정 번역 언어를 비교하여 언어 교정을 진행하고(S217), 강화 학습 번역 알고리즘의 딥러닝 기능을 이용하여 강화 학습을 통한 번역 교정을 수행한다(S220).
강화 학습 번역부(130)는 콘텐츠 원본 파일의 원본 언어와, 교정 검수 데이터인 교정 번역 언어를 기준으로 교정하지 않는 경우, 단계 S202에서 1차 초벌 번역된 초벌 번역 언어와 교정 번역 언어를 기준으로 교정하는지 판단한다(S218).
강화 학습 번역부(130)는 1차 초벌 번역 언어와 교정 번역 언어를 기준으로 교정하는 경우, 1차 초벌 번역 언어와 교정 번역 언어를 비교하여 언어 교정을 수행하고(S219), 강화 학습 번역 알고리즘의 딥러닝 기능을 이용하여 강화 학습을 통한 번역 교정을 수행한다(S220).
본 발명은 초벌 번역, 딥러닝 기능을 이용한 강화 학습, 교정 번역을 통해 상업적 해외 유통 및 수출이 가능한 문학, 웹툰, 영상 자막에 들어간 감정, 뉘앙스, 분위기, 은어, 말투, 작가의 의도, 문맥 등을 반영하여 독자로 하여금 의미 전달 수준이 아니라 실제 독서, 소비 가능한 고급 완성 수준을 번역 레벨을 개선할 수 있다.
본 발명에 의한 지속적인 학습은 기계번역(1차, 2차 초벌 번역)이 매우 우수하게 되어 번역 완성도의 극대화를 이룰 수 있다. 즉 특이점(뜻: 인공지능 최종진화, 완성됨)의 달성 과정을 통하여 최종 번역본의 완성 까지의 필수 단계인 교정과 검수의 요구 및 횟수는 상대적으로 줄어들게 되거나 필요 없게 됨으로써 경제성이 향상된다(200% 이상).
또한, 본 발명 시스템은 24시간 내내 제한 없이 무인으로 유통 가능한 최종본을 생산할 수 있다는 장점에 의해 경제성이 향상된다.
도 7은 본 발명의 실시예에 따른 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 방법을 설명하기 위한 도면이다.
출판사/저작권자는 콘텐츠 파일을 출판사 터미널(110)에 업로드한다.
출판사/저작권자는 웹소설의 경우, TXT 파일을 출판사 터미널(110)에 업로드하고, 웹툰의 경우, PNG, JPEG, Bitmap 중 한 가지 포맷으로 출판사 터미널(110)에 업로드하며, 영상 자막의 경우, JSON 등 데이터 포맷(자막 재생 시점, 자막 재생 길이, 자막 텍스트)으로 출판사 터미널(110)에 업로드한다.
출판사 터미널(110)은 출판사/저작권자가 업로드한 콘텐츠 원본 파일을 원본 콘텐츠 저장 데이터베이스(121)로 전송한다(S300).
출판사 터미널(110)은 파라미터가 포함된 콘텐츠 원본 파일을 생성하여 원본 콘텐츠 저장 데이터베이스(121)로 전송한다.
출판사 터미널(110)은 콘텐츠 원본 파일이 텍스트의 경우, saveTXT를 생성하여 원본 콘텐츠 저장 데이터베이스(121)로 전송한다.
여기서, saveTXT는 txtFile[1, lineNum](텍스트 파일(첫줄부터 끝줄 번호)), lineSize(총 줄의 갯수), size(파일크기), timestamp(전송시간), publisher(출판사), BookName(작품명), EpisodeNum(몇권인지), lang(언어 종류), processsed(초벌 처리 여부(처음 0, 처리되면 1))의 파라미터를 포함한다.
출판사 터미널(110)은 콘텐츠 원본 파일이 웹툰의 경우, saveTOON를 생성하여 원본 콘텐츠 저장 데이터베이스(121)로 전송한다.
여기서, saveTOON는 BookName(작품명), EpisodeNum(에피소드 넘버), publisher(출판사), timestamp(전송시간), size(파일크기), lineNum(몇개 객체의 대사인지), lang(언어 종류), processsed(초벌 처리 여부(처음 0, 처리되면 1)), script[1, lineNum, txt, imgPosition](대사 뭉치데이터[첫줄, 끝줄 번호, 대사 텍스트, 이미지 내 대상의 좌표])의 파라미터를 포함한다.
출판사 터미널(110)은 콘텐츠 원본 파일이 영상 자막의 경우, saveMOVT(BookName, movSize, publisher, timestamp, size, movTSize, lang, processsed, script[1, movtNum, txt, movTPosition, duration])를 생성하여 원본 콘텐츠 저장 데이터베이스(121)로 전송한다.
여기서, saveMOVT는 BookName(작품명), movSize(영상길이), publisher(저작권자), timestamp(전송시간), size(대사파일크기), movTSize(자막 객체개수), lang(언어 종류), processsed(초벌 처리 여부(처음 0, 처리되면 1)), script[1, movtNum, txt, movTPosition, duration](자막 뭉치데이터[첫번째 객체 번호, 객체번호, 자막 텍스트, 자막 재생 시점, 재생 시간])의 파라미터를 포함한다.
원본 콘텐츠 저장 데이터베이스(121)는 파라미터가 포함된 콘텐츠 원본 파일을 초벌 번역 장치(122)로 전송한다(S301). 콘텐츠 원본 파일은 전술한 saveTXT, saveTOON, saveMOVT과 동일하다.
초벌 번역 장치(122)는 초벌 번역을 수행한 초벌 번역 데이터를 초벌 번역 저장 데이터베이스(123)로 전송한다(S302).
초벌 번역 장치(122)는 초벌 번역 데이터가 초벌 텍스트의 경우, saveInitialTXT를 생성하여 초벌 번역 저장 데이터베이스(123)로 전송한다.
여기서, saveInitialTXT는 uniqueID[BookName, EpisodeNum](초벌 번역된 텍스트 저장(고유번호[작품명, 권수]), txtFile[1, LineNum](텍스트 파일(첫줄부터 끝줄 번호)), fromLang(원본 언어), toLang(번역 언어), txtSize(총 몇줄인지), processsed(교정 처리 여부(처음 0, 처리되면 1)), macProcesssed(기계가 교정한 내역이 있는지 여부(교정 내역이 없으면 0, 교정 내역이 있으면 1))의 파라미터를 포함한다.
초벌 번역 장치(122)는 초벌 번역 데이터가 웹툰 대사인 경우, saveInitialTOON를 생성하여 초벌 번역 저장 데이터베이스(123)로 전송한다.
여기서, saveInitialTOON는 uniqueID[BookName, EpisodeNum](초벌 번역된 텍스트 저장(고유번호[작품명, 권수]), txtFile[1, LineNum, imgPosition](초본자료(첫줄 번호, 끝줄 번호, 각 줄 대사의 이미지 좌표)), fromLang(원본 언어), toLang(번역 언어), txtSize(총 몇줄인지), processsed(교정 처리 여부(처음 0, 처리되면 1)), macProcesssed(기계가 교정한 내역이 있는지 여부(교정 내역이 없으면 0, 교정 내역이 있으면 1))의 파라미터를 포함한다.
초벌 번역 장치(122)는 초벌 번역 데이터가 영상 자막인 경우, saveInitialMOVT를 생성하여 초벌 번역 저장 데이터베이스(123)로 전송한다.
여기서, saveInitialMOVT는 uniqueID[BookName, EpisodeNum](초벌 번역된 텍스트 저장(고유번호[작품명, 권수]), txtFile[1, LineNum, movtPosition](초본자료(첫줄 번호, 끝줄 번호, 각 자막의 영상 내 시간 위치)), fromLang(원본 언어), toLang(번역 언어), txtSize(총 몇줄인지), processsed(교정 처리 여부(처음 0, 처리되면 1)), macProcesssed(기계가 교정한 내역이 있는지 여부(교정 내역이 없으면 0, 교정 내역이 있으면 1))의 파라미터를 포함한다.
초벌 번역 저장 데이터베이스(123)는 초벌 번역 데이터를 교정 스테이션 단말기(124)로 전송한다(S303).
초벌 번역 저장 데이터베이스(123)는 초벌 번역 데이터가 초벌 텍스트의 경우, sendInitialTXT, 웹툰 대사인 경우, sendInitialTOON, 영상 자막인 경우, sendInitialMOVT를 생성하여 교정 스테이션 단말기(124)로 전송한다.
sendInitialTXT, sendInitialTOON,sendInitialMOVT의 각 파라미터는 saveInitialTXT, saveInitialTOON, saveInitialMOVT의 각 파라미터와 동일하다.
전술한 save 함수는 결과물을 특정 장치에 저장하는 명령어이고, send 함수는 결과물을 특정 장치로 전송하는 명령어이다.
교정 스테이션 단말기(124)는 프론트 엔드 작업 화면을 통해 원본 콘텐츠 저장 데이터베이스(121)로부터 불러온 콘텐츠 원본 파일(원본 언어 문장)과, 초벌 번역 데이터를 병행하여 표시한다.
이를 위해서 교정 스테이션 단말기(124)는 소설 등 텍스트 작업 요청을 위한 requestTXT를 생성하여 원본 콘텐츠 저장 데이터베이스(121)로 전송한다. 여기서, requestTXT는 텍스트 원문 요청 함수로 BookName(작품명), EpisodeNum(권수), txtFile[lineNum](텍스트[줄 번호])의 파라미터를 포함한다.
교정 스테이션 단말기(124)는 매번 한 줄씩 불러오면 비효율적이므로 한꺼번에 불러오는 경우, requestBunchTXT(BookName(작품명), EpisodeNum(권수), txtFile[lineNum](텍스트[줄 번호]))를 이용하여 첫 번째 언급된 줄번호부터 두 번째 언급된 줄번호까지 호출하여 한꺼번에 불러온다.
교정 스테이션 단말기(124)는 웹툰 작업 요청을 위한 requestTOON를 생성하여 원본 콘텐츠 저장 데이터베이스(121)로 전송한다. 여기서, requestTOON는 웹툰 원문 요청 함수로 BookName(작품명), EpisodeNum(권수), script[lineNum](텍스트[줄 번호])의 파라미터를 포함한다.
교정 스테이션 단말기(124)는 매번 한 줄씩 불러오면 비효율적이므로 한꺼번에 불러오는 경우, requestBunchTOON(BookName(작품명), EpisodeNum(권수), script[lineNum](텍스트[줄 번호]))를 이용하여 첫 번째 언급된 줄번호부터 두 번째 언급된 줄번호까지 호출하여 한꺼번에 불러온다.
교정 스테이션 단말기(124)는 영상 자막 작업 요청을 위한 requestMOVT를 생성하여 원본 콘텐츠 저장 데이터베이스(121)로 전송한다. 여기서, requestMOVT는 영상 자막 요청 함수로 BookName(작품명), EpisodeNum(권수), script[lineNum](텍스트[줄 번호])의 파라미터를 포함한다.
교정 스테이션 단말기(124)는 매번 한 줄씩 불러오면 비효율적이므로 한꺼번에 불러오는 경우, requestBunchMOVT(BookName(작품명), EpisodeNum(권수), script[lineNum](텍스트[줄 번호]))를 이용하여 첫 번째 언급된 줄번호부터 두 번째 언급된 줄번호까지 호출하여 한꺼번에 불러온다.
도 3에 도시된 바와 같이, 교정 스테이션 단말기(124)는 초벌 번역 데이터를 프론트 엔드 작업 화면에 BookName, EpisodeNum, lineNum를 이용하여 쉽게 원문 언어 문장과 초벌 번역 문장을 짝을 이루어 표시할 수 있다.
교정 스테이션 단말기(124)는 초벌 번역 저장 데이터베이스(123)로부터 수신한 교정 작업 데이터를 초벌 번역 임시 데이터베이스(125)로 전송한다(S304).
교정 작업 데이터는 초벌 번역 임시 데이터베이스(125)에 저장될 때, 이미 교정이 진행되었으므로 processed 파라미터가 1이 된다(1=true, 0=false).
교정 스테이션 단말기(124)는 텍스트 교정 결과를 임시로 저장하는 함수인 saveCheckTXT(uniqueID[BookName, EpisodeNum]. txtFile[1, LineNum], fromLang, toLang, txtSize, 1, macProcessed)를 교정 작업 데이터를 초벌 번역 임시 데이터베이스(125)로 전송하여 저장한다.
교정 스테이션 단말기(124)는 웹툰 대사 교정 결과를 임시로 저장하는 함수인 saveCheckTOON(uniqueID[BookName, EpisodeNum]. txtFile[1, LineNum, imgPosition], fromLang, toLang, txtSize, 1, macProcessed)를 교정 작업 결과물을 초벌 번역 임시 데이터베이스(125)로 전송하여 저장한다.
교정 스테이션 단말기(124)는 영상 자막 교정 결과를 임시로 저장하는 함수인 saveCheckMOVT(uniqueID[BookName, EpisodeNum]. txtFile[1, LineNum, movePosition], fromLang, toLang, txtSize, 1, macProcessed)를 교정 작업 결과물을 초벌 번역 임시 데이터베이스(125)로 전송하여 저장한다.
초벌 번역 임시 데이터베이스(125)는 저장된 교정 작업 데이터를 강화 학습 번역부(130)와 연동하여 한 번 더 교정하여 초벌 번역 임시 데이터베이스(125)에 덮어쓰기로 저장할 수 있다. 이때, 덮어쓰기 되는 교정 작업 결과물은 초벌 번역 임시 데이터베이스(125)에 저장될 때, 이미 교정이 진행되었으므로 processed 파라미터와 macProcessed가 각각 1이 된다(1=true, 0=false).
초벌 번역 임시 데이터베이스(125)는 강화 학습 번역부(130)와 연동하여 한 번 더 교정한 교정 번역 데이터를 영구 저장하는 경우, 텍스트 교정 결과인 saveCheckTXT(uniqueID[BookName, EpisodeNum], txtFile[1, LineNum], fromLang, toLang, txtSize, 1, 1), 웹툰 대사 교정 결과인 saveCheckTOON(uniqueID[BookName, EpisodeNum]. txtFile[1, LineNum, imgPosition], fromLang, toLang, txtSize, 1, 1), 영상 자막 교정 결과인 saveCheckMOVT(uniqueID[BookName, EpisodeNum]. txtFile[1, LineNum, movePosition], fromLang, toLang, txtSize, 1, 1) 함수 구조를 이용한다.
다만, macProcessed = 1일 경우, 초벌 번역 임시 데이터베이스(125)에서 해당 데이터를 삭제하고, 강화 학습 번역부(130)에서 무인 교정 번역되어 덮어쓰기로 저장된 내용을 초벌 번역 임시 데이터베이스(125)에서 불러온다.
초벌 번역 임시 데이터베이스(125)는 저장된 교정 작업 데이터를 교정 검수 단말기(127)로 전송한다(S305).
교정 검수 단말기(127)는 초벌 번역 임시 데이터베이스(125)로부터 추출한 교정 작업 데이터와 원본 콘텐츠 저장 데이터베이스(121)로부터 불러온 콘텐츠 원본 파일을 디스플레이부(미도시)에 병행하여 표시하고, 교정 작업 데이터와 콘텐츠 원본 파일을 비교하여 교정 검수 작업을 수행한다.
교정 검수 단말기(127)는 교정 검수 작업을 수행한 최종 결과물인 교정 검수 데이터를 최종 작업물 저장 데이터베이스(128)로 전송한다(S306).
최종 작업물 저장 데이터베이스(128)는 교정 검수 데이터를 관리자 페이지 인터페이스(129)로 전송한다(S307).
최종 작업물 저장 데이터베이스(128)는 텍스트 최종 결과물을 전송하기 위한 sendFinalTXT(uniqueID[BookName, EpisodeNum](고유번호[작품명, 권수], txtFile[1, LineNum](최종 텍스트[첫줄 번호, 끝줄 번호]), fromLang(원본 언어), toLang(번역 언어), txtSize(총 몇줄인지))을 생성하여 관리자 페이지 인터페이스(129)로 전송한다.
최종 작업물 저장 데이터베이스(128)는 웹툰 최종 결과물을 전송하기 위한 sendFinalTOON(uniqueID[BookName, EpisodeNum]. txtFile[1, LineNum, imgPosition](최종 대사[첫줄 번호, 끝줄 번호, 이미지 좌표]), fromLang, toLang, txtSize)을 생성하여 관리자 페이지 인터페이스(129)로 전송한다.
최종 작업물 저장 데이터베이스(128)는 텍스트 최종 결과물을 전송하기 위한 sendFinalMOVT(uniqueID[BookName, EpisodeNum]. txtFile[1, LineNum, movtPosition](최종 자막[첫줄 번호, 끝줄 번호, 자막 위치]), fromLang, toLang, txtSize)을 생성하여 관리자 페이지 인터페이스(129)로 전송한다.
관리자 페이지 인터페이스(129)는 해외 유통자가 해외 유통망 연계 API(111)를 통해 텍스트가 업로드 되도록 하고, 해외 유통자에게 판매할 수 있다(S308).
교정 검수 단말기(127)는 교정 검수 작업한 교정 검수 데이터를 삼중 번역 말뭉치를 생성하여 교정 말뭉치 저장 데이터베이스(129a)로 전송한다(S309).
삼중 번역 말뭉치는 강화 학습에 사용될 데이터로 원본 언어 문장, 초벌 번역 문장, 교정 언어 문장의 3개의 짝으로 이루어진다.
예를 들어, 한 -> 영 번역의 경우, 한국어 문장, 초벌 영어 문장, 교정 영어 문장(교정 검수 데이터)이 될 수 있다.
스페인 -> 중국어 번역의 경우, 스페인 문장, 초벌 중어 문장, 교정 중어 문장이 될 수 있다.
이러한 삼중 번역 말뭉치는 교정 시 원본 - 교정, 초벌 - 교정 방식으로 대차 대조하여 활용할 수 있다.
교정 검수 단말기(127)는 삼중 번역 말뭉치를 전송하기 위한 sendTSP(uniqueID(고유번호), origin(원문 문장), initialTXT(초벌 번역 문장), finalTXT(최종 번역 문장), fromLang(원문 언어), toLang(번역 언어), feed(인공지능에 학습 여부(0,1)))을 생성하여 교정 말뭉치 저장 데이터베이스(129a)로 전송한다.
교정 말뭉치 저장 데이터베이스(129a)는 저장된 삼중 번역 말뭉치를 강화 학습 번역부(130)로 전송한다(S310).
교정 말뭉치 저장 데이터베이스(129a)는 삼중 말뭉치 학습을 위한 deepFeed(uniqueID(고유번호), origin(원문 문장), initialTXT(초벌 번역 문장), finalTXT(최종 번역 문장), fromLang(원문 언어), toLang(번역 언어), feed(인공지능에 학습 여부(0,1)))을 생성하여 강화 학습 번역부(130)로 전송한다.
강화 학습 번역 알고리즘은 자체적으로 피드 요청받아 추출한 데이터를 학습한다.
교정 말뭉치 저장 데이터베이스(129a)는 강화 학습 번역 알고리즘(인공지능)을 딥러닝 학습하기 위해서 단순히 신규 데이터를 전달한다.
강화 학습 번역 알고리즘은 가동/중지에 따라 자동으로 초벌 번역 임시 데이터베이스(125)에서 교정되지 않은 데이터(macprocessed = 0)를 언어 교정한다.
가동/중지 제어 명령어는 macCheck(1 또는 0), 특정 데이터 교정 요청은 텍스트의 경우, macCheck(uniqueID[BookName, EpisodeNum], txtFile[1, LineNum]), 웹툰, 영상 자막의 경우, macCheck(uniqueID[BookName, EpisodeNum], script[1, LineNum])을 함수를 이용한다.
강화 학습 번역부(130)는 교정 스테이션 단말기(124)에서 교정 작업을 수행하기 전(즉, 초벌 번역 임시 데이터베이스(125)에 업로드 하기 전)에, 강화 학습 번역 알고리즘을 이용하여 무인 자동 교정을 수행한다(S311).
교정 스테이션 단말기(124)는 교정 작업 내역 및 결과의 데이터인 교정 퍼포먼스 정보를 생성하여교정 퍼포먼스 데이터베이스(124a)로 전송한다(S312).
교정 스테이션 단말기(124)는 교정 작업의 퍼포먼 데이터스를 교정 퍼포먼스 데이터베이스(124a)에 저장하여 관리자 페이지 인터페이스(129)에서 효율적으로 교정 작업 퍼포먼스를 관리하도록 지원한다.
또한, 교정 스테이션 단말기(124)는 임의로 교정 퍼포먼스 데이터베이스(124a)의 데이터에 근거해, 교정 작업을 수행시 작업 효율성, 장르 적합도와 무인 교정 알고리즘 간 t-test, ANOVA 등을 상관관계 통계 함수에 기반하여 적합도를 최종 결정한다.
결과적으로 가장 최종 적합도가 높은 무인 알고리즘을 강화 학습 무인 교정에 투입한다.
교정 스테이션 단말기(124)는 교정 작업의 퍼포먼스를 한 세션, 한 객체 단위를 종료했을 때 교정 퍼포먼스 데이터베이스(124a)에 저장한다.
한 세션은 10분 주기 자동 저장, 교정 스테이션 접속 종료 시 하나의 사이클이 끝났을 때이다. 교정 퍼포먼스 저장 세션 기준은 관리자 페이지 인터페이스(129)에서 설정 가능하다.
교정 퍼포먼스 정보는 한 객체 단위(1권, 웹툰 1편, 영상 1편)를 종료했을 때 자동으로 저장된다.
교정 스테이션 단말기(124)는 교정 퍼포먼스 정보를 저장하기 위하여 savePerf를 생성하여 교정 퍼포먼스 데이터베이스(124a)로 전송한다.
여기서, savePerf는 sessionID(세션 고유번호), workerID(작업자 ID), BookName(작품명), EpisodeName(에피소드 수), lineNum(첫줄부터 끝줄 번호), timestamp(작업시간), txtSize(총 작업 텍스트 글자수), finalTxtCost(검수가 필요했던 문장 수), errorDetected(오류 발견 건수), genreFit(장르 적합소 점수)의 파라미터를 포함한다.
이상에서 본 발명의 실시예는 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하기 위한 프로그램, 그 프로그램이 기록된 기록 매체 등을 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
100: 번역 시스템
110: 출판사 터미널
111: 해외 유통망 연계 API
120: 번역 제공 서버
121: 원본 콘텐츠 저장 데이터베이스
122: 초벌 번역 장치
123: 초벌 번역 저장 데이터베이스
124: 교정 스테이션 단말기
124a: 교정 퍼포먼스 데이터베이스
125: 초벌 번역 임시 데이터베이스
126: 제어부
127: 교정 검수 단말기
128: 최종 작업물 저장 데이터베이스
129: 관리자 페이지 인터페이스
129a: 교정 말뭉치 저장 데이터베이스
130: 강화 학습 번역부

Claims (13)

  1. 콘텐츠 원본 파일을 출판사 터미널을 통해 수신하여 저장하는 원본 콘텐츠 저장 데이터베이스; 상기 콘텐츠 원본 파일을 인공신경망의 딥러닝 알고리즘에 의해 기계 번역하여 초벌 번역 데이터를 생성하는 초벌 번역 장치; 상기 콘텐츠 원본 파일과 상기 초벌 번역 데이터를 불러와 병행하여 제1 화면에 표시하고, 상기 콘텐츠 원본 파일과 상기 초벌 번역 데이터를 비교하여 교정 작업을 수행한 교정 작업 데이터를 입력받아 저장하는 교정 스테이션 단말기; 및 상기 콘텐츠 원본 파일과 상기 교정 작업 데이터를 불러와 병행하여 제2 화면에 표시하고, 상기 콘텐츠 원본 파일과 상기 교정 작업 데이터를 비교하여 교정 검수 작업을 수행한 교정 검수 데이터를 입력받아 저장하는 교정 검수 단말기를 포함하며,
    상기 교정 검수 단말기는 상기 교정 검수 데이터를 강화 학습에 사용될 데이터로 원본 언어 문장, 초벌 번역 문장, 상기 교정 검수 데이터인 교정 언어 문장의 3개의 짝으로 이루어진 삼중 번역 말뭉치로 생성하고,상기 교정 검수 단말기로부터 상기 삼중 번역 말뭉치를 수신하여 저장하는 교정 말뭉치 저장 데이터베이스를 더 포함하는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템.
  2. 청구항 1에 있어서,
    상기 교정 검수 단말기로부터 수신한 교정 검수 데이터를 저장하는 최종 작업물 저장 데이터베이스; 및
    상기 최종 작업물 저장 데이터베이스에 연동하여 상기 교정 검수 데이터를 최종 결과로 조회, 다운받을 수 있는 사용자 인터페이스를 제공하는 관리자 페이지 인터페이스를 더 포함하는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템.
  3. 삭제
  4. 청구항 1에 있어서,상기 교정 말뭉치 저장 데이터베이스로부터 상기 삼중 번역 말뭉치를 수신하고, 상기 교정 스테이션 단말기에서 교정 작업을 수행하기 전에, 강화 학습 번역 알고리즘을 이용하여 무인 자동 교정을 수행하는 강화 학습 번역부를 더 포함하는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템.
  5. 청구항 2에 있어서,
    상기 교정 스테이션 단말기로부터 교정 작업 내역인 교정 퍼포먼스 정보를 수신하여 저장하는 교정 퍼포먼스 데이터베이스; 및
    상기 관리자 페이지 인터페이스를 통해 상기 교정 퍼포먼스 정보를 검색, 조회하도록 제어하는 제어부를 더 포함하는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템.
  6. 청구항 4에 있어서,
    상기 강화 학습 번역부는 상기 콘텐츠 원본 파일의 원본 언어와, 상기 교정 검수 데이터인 교정 번역 언어를 기준으로 교정하는지 판단하고, 상기 원본 언어와 상기 교정 번역 언어를 비교하여 언어 교정을 진행하고, 강화 학습 번역 알고리즘의 딥러닝 기능을 이용하여 강화 학습을 통한 번역 교정을 수행하는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템.
  7. 청구항 4에 있어서,
    상기 강화 학습 번역부는 상기 콘텐츠 원본 파일의 원본 언어와, 상기 교정 검수 데이터인 교정 번역 언어를 기준으로 교정하지 않는 경우, 상기 초벌 번역 장치에서 1차 초벌 번역된 초벌 번역 언어와 상기 교정 번역 언어를 기준으로 교정하는지 판단하고, 상기 초벌 번역 언어와 상기 교정 번역 언어를 비교하여 언어 교정을 수행하고, 강화 학습 번역 알고리즘의 딥러닝 기능을 이용하여 강화 학습을 통한 번역 교정을 수행하는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템.
  8. 청구항 1에 있어서,
    상기 초벌 번역 장치로부터 상기 초벌 번역 데이터를 수신하여 저장하고, 상기 초벌 번역 데이터를 상기 교정 스테이션 단말기로 전송하는 초벌 번역 저장 데이터베이스를 더 포함하고,
    상기 초벌 번역 장치는 상기 초벌 번역 데이터가 초벌 텍스트의 경우, saveInitialTXT를 생성하여 초벌 번역 저장 데이터베이스로 전송하고,
    상기 saveInitialTXT는 uniqueID[BookName, EpisodeNum](초벌 번역된 텍스트 저장(고유번호[작품명, 권수]), txtFile[1, LineNum](텍스트 파일(첫줄부터 끝줄 번호)), fromLang(원본 언어), toLang(번역 언어), txtSize(총 몇줄인지), processsed(교정 처리 여부(처음 0, 처리되면 1)), macProcesssed(기계가 교정한 내역이 있는지 여부(교정 내역이 없으면 0, 교정 내역이 있으면 1))의 파라미터를 포함하는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템.
  9. 청구항 1에 있어서,
    상기 교정 스테이션 단말기는 텍스트 작업 요청을 위한 requestTXT를 생성하여 상기 원본 콘텐츠 저장 데이터베이스로 전송하고,
    상기 requestTXT는 텍스트 원문 요청 함수로 BookName(작품명), EpisodeNum(권수), txtFile[lineNum](텍스트[줄 번호])의 파라미터를 포함하고,
    상기 교정 스테이션 단말기는 한꺼번에 불러오는 경우, requestBunchTXT(BookName(작품명), EpisodeNum(권수), txtFile[lineNum](텍스트[줄 번호]))를 이용하여 첫 번째 언급된 줄번호부터 두 번째 언급된 줄번호까지 호출하는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템.
  10. 청구항 8에 있어서,
    상기 초벌 번역 저장 데이터베이스로부터 수신한 교정 작업을 수행한 교정 작업 데이터를 저장하는 초벌 번역 임시 데이터베이스를 더 포함하고,
    상기 교정 스테이션 단말기는 텍스트 교정 결과를 임시로 저장하는 함수인 saveCheckTXT(uniqueID[BookName, EpisodeNum]. txtFile[1, LineNum], fromLang, toLang, txtSize, 1, macProcessed)를 상기 교정 작업 데이터를 상기 초벌 번역 임시 데이터베이스로 전송하는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템.
  11. 청구항 4에 있어서,
    상기 교정 말뭉치 저장 데이터베이스는 삼중 말뭉치 학습을 위한 deepFeed(uniqueID(고유번호), origin(원문 문장), initialTXT(초벌 번역 문장), finalTXT(최종 번역 문장), fromLang(원문 언어), toLang(번역 언어), feed(인공지능에 학습 여부(0,1)))을 생성하여 상기 강화 학습 번역부로 전송하는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템.
  12. 청구항 2에 있어서,
    상기 최종 작업물 저장 데이터베이스는 텍스트 최종 결과물을 전송하기 위한 sendFinalTXT(uniqueID[BookName, EpisodeNum](고유번호[작품명, 권수], txtFile[1, LineNum](최종 텍스트[첫줄 번호, 끝줄 번호]), fromLang(원본 언어), toLang(번역 언어), txtSize(총 몇줄인지))을 생성하여 상기 관리자 페이지 인터페이스로 전송하는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템.
  13. 청구항 1에 있어서,상기 교정 검수 단말기는 삼중 번역 말뭉치를 전송하기 위한 sendTSP(uniqueID(고유번호), origin(원문 문장), initialTXT(초벌 번역 문장), finalTXT(최종 번역 문장), fromLang(원문 언어), toLang(번역 언어), feed(인공지능에 학습 여부(0,1)))을 생성하여 상기 교정 말뭉치 저장 데이터베이스로 전송하는 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템.
KR1020210034738A 2021-03-17 2021-03-17 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템 KR102306344B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210034738A KR102306344B1 (ko) 2021-03-17 2021-03-17 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템
PCT/KR2022/002275 WO2022196956A1 (ko) 2021-03-17 2022-02-16 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템
US18/550,718 US20240160861A1 (en) 2021-03-17 2022-02-16 Transformer translation system for deep learning using triple sentence pair

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210034738A KR102306344B1 (ko) 2021-03-17 2021-03-17 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템

Publications (1)

Publication Number Publication Date
KR102306344B1 true KR102306344B1 (ko) 2021-09-28

Family

ID=77923055

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210034738A KR102306344B1 (ko) 2021-03-17 2021-03-17 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템

Country Status (3)

Country Link
US (1) US20240160861A1 (ko)
KR (1) KR102306344B1 (ko)
WO (1) WO2022196956A1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114153973A (zh) * 2021-12-07 2022-03-08 内蒙古工业大学 基于t-m bert预训练模型的蒙古语多模态情感分析方法
KR102406098B1 (ko) * 2021-11-29 2022-06-08 주식회사 인사이트베슬 사중 팔레트 데이터 구조를 이용한 이미지 번역편집 시스템
WO2022196956A1 (ko) * 2021-03-17 2022-09-22 주식회사 인사이트베슬 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템
WO2023085695A1 (ko) * 2021-11-10 2023-05-19 주식회사 벨루가 이미지 편집 장치
KR20230093754A (ko) * 2021-12-20 2023-06-27 한림대학교 산학협력단 전자 의무 기록을 구성하는 텍스트의 분석과 관련된 전처리를 수행하는 전자 장치
KR20230114893A (ko) 2022-01-26 2023-08-02 서강대학교산학협력단 자기지도 스윈 트랜스포머 모델 구조 및 이의 학습 방법
KR102639477B1 (ko) * 2023-09-21 2024-02-22 (주) 아하 Chat GPT를 활용한 실시간 번역 및 전자 회의록 작성 방법 및 이를 위한 전자 칠판
KR20240050735A (ko) 2022-10-12 2024-04-19 고려대학교 산학협력단 대조적 학습을 이용한 어휘 의미망 관계 이해 및 단어 중의성 해소 방법 및 장치
KR20240056020A (ko) 2022-10-21 2024-04-30 주식회사 인사이트베슬 삼중말뭉치를 이용한 언어 번역을 위한 데이터 정제 시스템
KR20240061660A (ko) 2022-11-01 2024-05-08 주식회사 인사이트베슬 삼중말뭉치를 활용한 언어 번역 데이터 정제 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259631A (ja) * 1999-03-08 2000-09-22 Atr Interpreting Telecommunications Res Lab 機械翻訳校正装置
KR101099196B1 (ko) 2003-06-20 2011-12-27 마이크로소프트 코포레이션 적응형 기계 번역
KR20170052974A (ko) * 2015-11-05 2017-05-15 윤제현 언어 학습을 위한 원어민 번역 교정 방법 및 번역 교정 서비스 제공 서버
KR102061217B1 (ko) * 2019-05-20 2019-12-31 (주)피플러엘에스피 인공 신경망 기반 클라우드형 번역 방법
KR20200017600A (ko) * 2018-08-01 2020-02-19 김민철 번역 서비스 제공 장치 및 방법
KR20200034012A (ko) * 2018-09-10 2020-03-31 이영호 빅데이터 기반 특허 문서 번역 및 검수 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007051484A1 (en) * 2005-11-03 2007-05-10 D'agostini Organizzazione Srl Network-based translation system and method
KR102306344B1 (ko) * 2021-03-17 2021-09-28 남지원 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259631A (ja) * 1999-03-08 2000-09-22 Atr Interpreting Telecommunications Res Lab 機械翻訳校正装置
KR101099196B1 (ko) 2003-06-20 2011-12-27 마이크로소프트 코포레이션 적응형 기계 번역
KR20170052974A (ko) * 2015-11-05 2017-05-15 윤제현 언어 학습을 위한 원어민 번역 교정 방법 및 번역 교정 서비스 제공 서버
KR20200017600A (ko) * 2018-08-01 2020-02-19 김민철 번역 서비스 제공 장치 및 방법
KR20200034012A (ko) * 2018-09-10 2020-03-31 이영호 빅데이터 기반 특허 문서 번역 및 검수 방법
KR102061217B1 (ko) * 2019-05-20 2019-12-31 (주)피플러엘에스피 인공 신경망 기반 클라우드형 번역 방법

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022196956A1 (ko) * 2021-03-17 2022-09-22 주식회사 인사이트베슬 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템
WO2023085695A1 (ko) * 2021-11-10 2023-05-19 주식회사 벨루가 이미지 편집 장치
KR102406098B1 (ko) * 2021-11-29 2022-06-08 주식회사 인사이트베슬 사중 팔레트 데이터 구조를 이용한 이미지 번역편집 시스템
CN114153973A (zh) * 2021-12-07 2022-03-08 内蒙古工业大学 基于t-m bert预训练模型的蒙古语多模态情感分析方法
KR20230093754A (ko) * 2021-12-20 2023-06-27 한림대학교 산학협력단 전자 의무 기록을 구성하는 텍스트의 분석과 관련된 전처리를 수행하는 전자 장치
KR102642012B1 (ko) * 2021-12-20 2024-02-27 한림대학교 산학협력단 전자 의무 기록을 구성하는 텍스트의 분석과 관련된 전처리를 수행하는 전자 장치
KR20230114893A (ko) 2022-01-26 2023-08-02 서강대학교산학협력단 자기지도 스윈 트랜스포머 모델 구조 및 이의 학습 방법
KR20240050735A (ko) 2022-10-12 2024-04-19 고려대학교 산학협력단 대조적 학습을 이용한 어휘 의미망 관계 이해 및 단어 중의성 해소 방법 및 장치
KR20240056020A (ko) 2022-10-21 2024-04-30 주식회사 인사이트베슬 삼중말뭉치를 이용한 언어 번역을 위한 데이터 정제 시스템
KR20240061660A (ko) 2022-11-01 2024-05-08 주식회사 인사이트베슬 삼중말뭉치를 활용한 언어 번역 데이터 정제 방법
KR102639477B1 (ko) * 2023-09-21 2024-02-22 (주) 아하 Chat GPT를 활용한 실시간 번역 및 전자 회의록 작성 방법 및 이를 위한 전자 칠판

Also Published As

Publication number Publication date
WO2022196956A1 (ko) 2022-09-22
US20240160861A1 (en) 2024-05-16

Similar Documents

Publication Publication Date Title
KR102306344B1 (ko) 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템
US10970475B2 (en) Method and system for suggesting revisions to an electronic document
KR100305459B1 (ko) 문서처리방법과장치,및문서처리프로그램을기록한컴퓨터판독가능한기록매체
US10896211B2 (en) Methods and systems for a compliance framework database schema
CN109902288A (zh) 智能条款分析方法、装置、计算机设备及存储介质
US20080249760A1 (en) Customizable machine translation service
CN105630938A (zh) 一种智能问答系统
WO2019190974A9 (en) Method and system for suggesting revisions to an electronic document
JP2008152760A (ja) マシンアシスト翻訳ツール
CN110517082A (zh) 广告推送方法、装置、设备及计算机可读存储介质
CN102439595A (zh) 基于文本文档和用户问题的语义标记的问答系统和方法
JPH10254870A (ja) 共有辞書管理方法および共有辞書管理システム
US8250049B2 (en) System for handling meta data for describing one or more resources and a method of handling meta data for describing one or more resources
CN102227723B (zh) 辅助误译的检测的装置及方法
KR102406098B1 (ko) 사중 팔레트 데이터 구조를 이용한 이미지 번역편집 시스템
US6819806B1 (en) Document processing apparatus and storage medium
JP3212983B1 (ja) 部品説明書の作成支援方法、部品説明書の作成支援システム、及びコンピュータ読取可能な記録媒体
KR20240056020A (ko) 삼중말뭉치를 이용한 언어 번역을 위한 데이터 정제 시스템
KR20240061660A (ko) 삼중말뭉치를 활용한 언어 번역 데이터 정제 방법
CN111858938B (zh) 一种裁判文书标签的提取方法及装置
JPH07225761A (ja) 文書データの一致検証方式
JP2011043930A (ja) 帳票処理システム、帳票処理サーバ装置、帳票処理装置、帳票処理方法、およびプログラム
US20060026516A1 (en) Importing text into word processing documents
O'Keefe The Scriptorium approach to content strategy
CN117421413A (zh) 一种问答对生成方法、装置及电子设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant