KR102395811B1 - 기계번역 모델을 위한 한문고서 말뭉치 증강방법 - Google Patents

기계번역 모델을 위한 한문고서 말뭉치 증강방법 Download PDF

Info

Publication number
KR102395811B1
KR102395811B1 KR1020210163048A KR20210163048A KR102395811B1 KR 102395811 B1 KR102395811 B1 KR 102395811B1 KR 1020210163048 A KR1020210163048 A KR 1020210163048A KR 20210163048 A KR20210163048 A KR 20210163048A KR 102395811 B1 KR102395811 B1 KR 102395811B1
Authority
KR
South Korea
Prior art keywords
corpus
translation
augmenting
chinese
noise
Prior art date
Application number
KR1020210163048A
Other languages
English (en)
Inventor
이영
오영대
김우균
Original Assignee
주식회사 엘솔루
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘솔루 filed Critical 주식회사 엘솔루
Priority to KR1020210163048A priority Critical patent/KR102395811B1/ko
Application granted granted Critical
Publication of KR102395811B1 publication Critical patent/KR102395811B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 기계번역 모델을 위한 한문고서 말뭉치 증강방법에 관한 것으로서, 더욱 상세하게는 학습용으로 구축된 병렬 말뭉치를 표점이나 한자 노이즈, 번역문 병기 노이즈, 역번역, 문장분할, 사전추출 기법 중 어느 하나 이상의 기법을 이용하여 말뭉치를 증강하는 방법에 관한 것이다.
본 발명의 실시예에 따른 기계번역 모델을 위한 한문고서 말뭉치 증강방법은, 입력부의 출발어(소스)인 학습용으로 구축된 병렬 말뭉치를,
증강부에서 표점(문장부호), 한문 한자(원문 글자) 노이즈(A), 번역문 병기 노이즈(B), 역번역(C), 문장분할(D), 사전추출(E) 중 어느 하나 이상의 기법으로 증강해서,
출력부에 도착어(타겟)로 출력하는 것에 의해,
말뭉치 양을 늘리는 것을 특징으로 한다.

Description

기계번역 모델을 위한 한문고서 말뭉치 증강방법 {Method of Augmenting Korean Classical Literature Corpus for Machine Translation Model}
본 발명은 기계번역 모델을 위한 한문고서 말뭉치 증강방법에 관한 것으로서, 더욱 상세하게는 학습용으로 구축된 병렬 말뭉치를 표점이나 한자 노이즈, 번역문 병기 노이즈, 역번역, 문장분할, 사전추출 기법 중 어느 하나 이상의 기법을 이용하여 말뭉치를 증강하는 방법에 관한 것이다.
말뭉치 또는 코퍼스(corpus)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다.
말뭉치는 언어학에서 주로 구조를 이루고 있는 텍스트 집합으로, 통계 분석 및 가설 검증을 수행하거나, 특정한 언어 영역 내에서 언어 규칙 발생의 검사와 그 규칙의 정당성 입증에 사용된다.
말뭉치는 단일한 언어(단일언어 말뭉치) 또는 여러 언어(다중언어 말뭉치)의 텍스트를 포함하고 있는 경우가 있다.
여러 언어 간의 비교를 위해 특별히 형태화된 다중언어 말뭉치는 '정렬된 병렬 말뭉치(aligned parallel corpora)'라고 한다.
한편, 인공지능 로봇, 무인자동차, 기계번역 등 AI는 이미 우리 일상과 밀접히 연결되어 있다.
전 세계 언어를 인공지능 딥러닝을 이용한 모델 등장과 트랜스포머(Transformer)의 등장으로 아주 큰 발전을 가져올뿐더러 우리의 언어장벽을 해결해주고 있을 수준이다.
어떤 언어든지 성능이 좋은 모델을 개발하려면 대용량의 병렬 말뭉치를 가지고 학습을 진행해야 하는데 이 병렬 말뭉치를 구축하는데 많은 시간과 비용이 필요한 방대한 작업이다.
인공지능의 영향이 나날이 커지면서 국내 최초로 한문 고서 인공지능 기계 번역 시스템 개발에 첫발을 내딛게 되었다.
한문은 한자로 이루어진 문어체의 문장, 즉 상어한어를 바탕으로 한 문어(글말)이다.
가끔 한자와 한문을 헷갈리거나 동의어 취급하는 사람들이 있는데 한자는 문자이고 한문은 언어이다.
한문은 단어 하나하나에 의미가 있고 개별 단어가 모여 문장을 이루며 그 문장은 실사와 허사가 서로 유기적으로 구성되어 구축된 문어라고도 한다.
한문이란 언어는 기타 세계 언어 말뭉치 구축보다 훨씬 어렵고 한문 분야 전문가가 아니라면 말뭉치 구축이 안 되는 특수한 언어이다.
하지만, 한문 고서 전담연구원들은 턱없이 부족하고 전문가들이 일일이 휴먼 번역하고 있는 한문 고서 번역속도도 너무 느린 것은 현실이다.
국립중앙도서관 국내 최대 고서 소장 기관에는 1300만 책 고서들이 있지만 이 모든 것을 휴먼 번역하기는 몇 십년을 거쳐야 될지 누구도 모르는 일이다.
하지만, 인공지능 한문고서 기계번역 기술이 개발된다면 파격적인 발전이 될 것이다.
따라서 좋은 품질의 한문고서 기계번역 모델을 만들기 위해서 대용량의 병렬 말뭉치가 필요한데, 실질적으로 한문고서 병렬 말뭉치는 구축하기 어렵고 그 양도 많지 않아서 인공지능 학습에 사용하기에 그 양이 턱없이 부족한 문제점이 있었다.
공개번호 제10-2014-0059877호(공개일자 2014년05월19일)
본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로서, 부족한 한문고서 병렬 말뭉치에 대해 여러 가지 한문고서의 특징에 맞는 말뭉치 증강방법에 대해 정의하여 말뭉치의 양의 늘려 인공지능 모델을 학습함으로써, 증강 전 학습 모델보다 더 좋은 품질의 한문고서 기계번역 모델을 만들 수 있고, 말뭉치 외주 작업 없이 빠른 시일에 대용량 말뭉치 구축으로 시간 및 비용을 절감할 수 있으며, 양질의 한문고서 말뭉치를 구축함으로써 인공지능 모델 개발에 최적의 품질을 가져올 수 있는 기계번역 모델을 위한 한문고서 말뭉치 증강방법을 제공하는데 그 목적이 있다.
상술한 목적을 달성하기 위한 본 발명의 실시예에 따른 기계번역 모델을 위한 한문고서 말뭉치 증강방법은, 입력부의 출발어(소스)인 학습용으로 구축된 병렬 말뭉치를,
증강부에서 표점(문장부호), 한문 한자(원문 글자) 노이즈(A), 번역문 병기 노이즈(B), 역번역(C), 문장분할(D), 사전추출(E) 중 어느 하나 이상의 기법으로 증강해서,
출력부에 도착어(타겟)로 출력하는 것에 의해,
말뭉치 양을 늘리는 것을 특징으로 한다.
또한, 상기 표점(문장부호), 한문 한자(원문 글자) 노이즈(A)를 이용하는 증강방법은,
상기 학습용으로 구축된 병렬 말뭉치에서 노이즈 유형별로 분류해서 각각 원문 표점 노이즈와, 원문 글자 노이즈를 생성하는 단계,
상기 원문 표점 노이즈에 대응하는 번역문과 그 원문을 병합한 후 표점 노이즈 말뭉치를 정제(normalization)하는 단계,
상기 원문 글자 노이즈에 대응하는 번역문과 그 원문을 병합한 후 글자 노이즈 말뭉치를 정제하는 단계,
상기 최종 표점과 글자 노이즈 말뭉치를 증강하는 단계로 이루어지는 것을 특징으로 한다.
또한, 상기 번역문 병기 노이즈(B)를 이용하는 증강방법은,
상기 학습용으로 구축된 병렬 말뭉치에서 번역문에 병기 포함된 말뭉치만 추출하는 단계,
원문은 그대로 두고 번역문인 한국어에서 괄호( ) 안 병기 부분을 일괄 삭제하는 단계,
상기 원문과 번역문을 병합한 후 병기 노이즈 말뭉치를 정제하는 단계,
최종 병기 노이즈 말뭉치를 증강하는 단계로 이루어지는 것을 특징으로 한다.
또한, 상기 역번역(C)를 이용하는 증강방법은,
상기 학습용으로 구축된 병렬 말뭉치의 실데이터(한문->한국어)를 준비해서 한국어->한문 역실데이터를 변환하고, 원문과 번역문을 뒤바꿔서 역번역모델(한국어->한문)을 개발하는 단계,
상기 한국어를 한문으로 기계번역해서 이를 한국어와 병합하여 역번역 합성 데이터를 만드는 단계,
상기 역번역 합성 데이터를 정제해서 최종 합성 말뭉치를 증강하는 단계로 이루어지는 것을 특징으로 한다.
또한, 상기 문장분할(D)을 이용하는 증강방법은,
상기 학습용으로 구축된 병렬 말뭉치의 원문과 번역문에서 일정한 규칙이 있는 문장을 추출하는 단계,
상기 추출 원문과 번역문을 각각 규칙 기반으로 일괄 분할해서 여러 문장으로 만드는 단계,
상기 분할 원문과 그 분할 원문에 대응하는 번역문을 각각 매칭시켜서 최종 문장 분할 말뭉치를 증강하는 단계로 이루어지는 것을 특징으로 한다.
또한, 상기 사전추출(E)을 이용하는 증강방법은,
상기 학습용으로 구축된 병렬 말뭉치의 번역문(한국어) 말뭉치에서 병기 포함한 문장만 추출하는 단계,
프로그램 스크립트를 활용해서 상기 추출 병기 포함 문장에서 "단어(병기)"로 되어있는 부분을 일괄 추출하는 단계,
추출 원문(괄호안 병기)과 추출 번역문(한국어) 단어를 매칭하여 원문과 번역문을 병합하는 단계,
사전 말뭉치를 정제하고 최종 사전추출 말뭉치를 증강하는 단계로 이루어지는 것을 특징으로 한다.
그리고 상기 사전추출(E)을 이용하여 증강한 이후에 명사치환(F)을 이용한 증강방법을 더 수행하되, 상기 명사치환(F)을 이용한 증강방법은,
상기 사전(명사) 자리의 패턴 규칙을 찾아내서 패턴 말뭉치를 구축하는 단계,
상기 패턴 말뭉치에 적용 가능한 단어쌍을 구축하는 단계,
프로그램 스크립트를 이용해서 그 단어쌍을 패턴 말뭉치에 일괄 적용하여 치환하고, 최종 패턴 말뭉치를 증강하는 단계로 이루어지는 것을 특징으로 한다.
상술한 과제의 해결 수단에 의하면, 부족한 한문고서 병렬 말뭉치에 대해 여러 가지 한문고서의 특징에 맞는 말뭉치 증강방법에 대해 정의하여 말뭉치의 양의 늘려 인공지능 모델을 학습함으로써, 증강 전 학습 모델보다 더 좋은 품질의 한문고서 기계번역 모델을 말들 수 있고, 말뭉치 외주 작업 없이 빠른 대용량 말뭉치 구축으로 시간 및 비용을 절감할 수 있으며, 양질의 한문고서 말뭉치를 구축함으로써 인공지능 모델 개발에 최적의 품질을 가져올 수 있다.
또한, 양질의 한문고서 데이터를 제공함으로 기계 학습에 의한 수준 높은 한문고서 번역을 통해 우리 전통 역사 및 문화의 미래 활동 가치와 가능성을 제고할 수 있고, 한문 고서 관련 국립중앙도서관, 국회도서관 등 국공립 도서관의 수요를 기반으로 개발 결과물 고품질 번역 제공 및 전국 확산을 추진할 수 있으며, 우리의 한문고서 언어를 널리 알리며 한국사 교육과정과 연계하여 초중고 학교 대상으로 시범교육 실시 및 전국 확산을 추진할 수 있다.
도 1은 본 발명을 설명하기 위한 말뭉치 증강장치의 개략적인 구성도이다.
도 2는 본 발명의 실시예에 따른 기계번역 모델을 위한 한문고서 말뭉치 증강방법을 나타내는 개략적인 개념도이다.
도 3은 도 2에 나타낸 표점이나 노이즈를 이용한 말뭉치 증강방법의 순서도이다.
도 4는 도 2에 나타낸 번역문 병기를 이용한 말뭉치 증강방법의 순서도이다.
도 5a와 도 5b는 도 2에 나타낸 역번역을 이용한 합성 말뭉치 증강방법의 순서도와 개념도이다.
도 6은 도 2에 나타낸 문장분할을 이용한 말뭉치 증강방법의 순서도이다.
도 7은 도 2에 나타낸 사전추출을 이용한 말뭉치 증강방법의 순서도이다.
도 8은 도 2에 나타낸 명사치환을 이용한 말뭉치 증강방법의 순서도이다.
이하 본 발명의 실시예에 대하여 첨부된 도면을 참고로 그 구성 및 작용을 설명하기로 한다.
도면들 중 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호 및 부호들로 나타내고 있음에 유의해야 한다.
하기에서 본 발명을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명을 설명하기 위한 말뭉치 증강장치의 개략적인 구성도이고, 도 2는 본 발명의 실시예에 따른 기계번역 모델을 위한 한문고서 말뭉치 증강방법을 나타내는 개략적인 순서도이다.
도 1에 도시된 바와 같이 입력부(10)의 출발어(소스)를, 증강부(20)에서 도 2의 증강방법 중 하나 이상을 채택하여, 출력부(30)에서 도착어(타겟)의 말뭉치 양을 증강한다.
여기서 도 2의 증강방법은 표점(문장부호), 한문 한자(원문 글자) 노이즈를 이용한 증강방법(S10), 번역문 병기 노이즈를 이용한 증강방법(S20), 역번역을 이용한 증강방법(S30), 문장분할을 이용한 증강방법(S40), 사전추출을 이용한 증강방법(S50)과 여기에 더해 명사치환을 이용한 증강방법(S60)이다.
도 2의 상기 표점(문장부호)과 한문 한자(원문 글자) 노이즈를 이용한 말뭉치 증강방법(S10)은 이미 구축된 병렬 말뭉치에서 출발어(소스)에서만 표점 또는 한문 한자 등을 의도적으로 누락 또는 변경으로 생성하고, 도착어(타겟)는 기존 데이터를 유지한다.
이와 같은 노이즈 데이터를 모델 학습에 적용함으로 모델의 일반화 성능을 향상시키는 작용을 하고, 말뭉치를 기존 말뭉치 양보다 2배 증강할 수 있다.
여기서 표점 대상 8개 문장부호는 마침표(.), 물음표(?), 느낌표(!), 반점(,), 모점(、), 가운뎃점(·) 등이고, 원문이 장문이거나 표점이 많을 경우 융통성 있게 일부 표점을 제거하여 부작용 줄일 수 있다.
상기 한문 한자(원문 글자) 노이즈는 한문 고서 원문에서 임의의 글자 누락, 생성, 위치변경 등으로 생성하고, 대량 적용시 부작용 발생 가능이 있으므로 학습용 전체 병렬 말뭉치 양에 따라 적정 비율을 적용하는 것이 중요하다.
도 3은 도 2에 나타낸 표점이나 노이즈를 이용한 말뭉치 증강방법의 순서도이다.
도 3에 도시된 바와 같이 먼저 입력부(10)의 출발어(소스) 즉, 학습용으로 구축된 병렬 말뭉치에서 노이즈 유형별로 분류해서(S11) 아래의 표 1 및 표 2와 같이 각각 원문 표점 노이즈와, 원문 글자 노이즈를 생성한다(S12,13).
Figure 112021135540218-pat00001
Figure 112021135540218-pat00002
다음 상기 S12 단계 다음 원문 표점 노이즈에 대응하는 번역문과 그 원문을 병합한(S14) 후 표점 노이즈 말뭉치를 정제(normalization)한다(S16).
다음 상기 S13 단계 다음 원문 글자 노이즈에 대응하는 번역문과 그 원문을 병합한(S15) 후 글자 노이즈 말뭉치를 정제한다(S17).
그리고 최종 표점과 글자 노이즈 말뭉치를 증강하여(S18) 말뭉치 양을 늘린다.
도 4는 도 2에 나타낸 번역문 병기를 이용한 말뭉치 증강방법의 순서도이다.
도 4에 도시된 바와 같이 먼저 입력부(10)의 출발어(소스) 즉, 학습용으로 구축된 병렬 말뭉치에서 번역문에 병기 포함된 말뭉치만 추출한다(S21).
다음 아래의 표 3과 같이 원문은 그대로 두고 번역문인 한국어에서 괄호( ) 안 병기 부분을 일괄 삭제한다(S22).
다음 원문과 번역문을 병합한(S23) 후 병기 노이즈 말뭉치를 정제한다(S24).
그리고 최종 병기 노이즈 말뭉치를 증강하여(S25), 출력부(30)에서 도착어(타겟)의 말뭉치 양을 늘린다.
Figure 112021135540218-pat00003
도 2의 상기 역번역을 이용한 증강방법(S30)은 기존의 훈련된 반대 방향으로 학습된 번역 모델을 이용한 번역기를 사용해 단일 언어 말뭉치에 대한 번역을 진행하며 합성 병렬 말뭉치를 만든 후 이것을 기존 양방향 병렬 말뭉치에 추가하여 훈련하는 방식이다.
역번역에는 단일 언어(타겟-정답문) 데이터를 가상 병렬 데이터로 변환하여 학습데이터의 양을 증가시킨다.
한문 고서 데이터 중 병렬 데이터의 타겟 정답문 또는 그 이외의 한국어 번역문의 단일어 말뭉치를 문장 단위로 작업해서 역번역 모델(한국어-한문고전)로 번역을 진행하여 나온 기계번역문은 소스로 사용하고 한국어 단일어 말뭉치는 타겟인 정답문으로 해서 합성 말뭉치인 병렬 말뭉치를 만들어 말뭉치 증강을 한다.
이 증강방법은 실데이터에서 반영 못하는 영역에 대한 데이터 확장과, 성능 좋은 역번역 모델을 구축하고 이를 기반으로 생성된 합성 말뭉치 구축과, 실데이터와 합성 말뭉치의 비율을 조절하여 성능 검증 도메인 데이터가 소량일 경우에 효과적인 기법으로 활용되고 있다.
도 5a와 도 5b는 도 2에 나타낸 역번역을 이용한 합성 말뭉치 증강방법의 순서도와 개념도이다.
도 5b에 도시된 바와 같이 역번역을 이용한 합성 말뭉치 증강방법은 기존 준비되어 있는 병렬 말뭉치로 원문과 번역문을 뒤바꿔서 역번역모델(한국어->한문)을 만들어 한국어의 기계번역을 생성하여 역번역 합성 데이터를 만드는 방법이다.
이를 좀 더 설명하면, 도 5a에 도시된 바와 같이 먼저 입력부(10)의 출발어(소스) 즉, 학습용으로 구축된 병렬 말뭉치의 실데이터(한문->한국어)를 준비해서(S31) 한국어->한문 역실데이터를 변환하고(S32), 원문과 번역문을 뒤바꿔서 역번역모델(한국어->한문)을 개발한다(S33).
다음 한국어를 한문으로 기계번역해서(S34) 이를 한국어와 병합하여 역번역 합성 데이터를 만든다(S35).
이 역번역 합성 데이터를 정제해서(S36) 최종 합성 말뭉치를 증강하여(S37) 말뭉치 양을 늘린다.
도 2의 상기 문장분할(Sentence segmentation)을 이용한 증강방법(S40)에 대해 설명하면, 한문 고서에는 긴 문장들이 많고 따라서 문장 구조가 복잡함으로 모델 학습의 시간, 공간적 복잡도의 증가해 긴 문장이 번역이 잘 안될 때가 있다.
이 방법은 긴 문장을 정확하고 효율적으로 번역하기 위하여 긴 문장을 몇 개의 짧은 문장으로 분할하는 방법이다.
이를 위해서 한문 고서의 긴 문장의 유형을 수집하고 문장분할점을 찾아야 한다.
문장분할점을 찾아서 문장을 짧은 복수의 문장으로 분할하여 각각 나눈다.
긴 고서 문장들은 많은 표점(문장부호)들이 있는데 원문과 번역문의 분점(,/,) 콤마의 개수 및 위치 등을 확인해서 일정한 규칙이 있으면 일괄 추출해서 분점 기준으로 문장분할을 진행한다.
도 6은 도 2에 나타낸 문장분할을 이용한 말뭉치 증강방법의 순서도이다.
도 6에 도시된 바와 같이 먼저 입력부(10)의 출발어(소스) 즉, 학습용으로 구축된 병렬 말뭉치에서 원문과 번역문에 분점(,/,) 콤마의 개수 및 위치 등을 확인해서 일정한 규칙이 있는 문장을 추출한다(S41).
다음 아래의 표 4와 같이 추출 원문과 번역문을 각각 규칙 기반으로 일괄 분할해서 여러 문장으로 만든다(S42,S43).
Figure 112021135540218-pat00004
이때 분할된 문장 개수는 원문과 번역문이 일치해야만 한다.
다음 분할한 원문과 그 분할한 원문에 대응하는 번역문을 각각 매칭시켜서(S44) 최종 문장분할 말뭉치를 증강하여(S45) 말뭉치 양을 늘린다.
도 2의 상기 사전추출을 이용한 증강방법(S50)에 대해 설명하면, 한문 고전 말뭉치의 번역문(타겟-한국어)에는 병기 부분 단어를 추출한다.
고전 DB에 이미 정리된 단어 사전 말뭉치가 많지만 도메인별로 나누어 있지 않은 관계로 모두 적용하면 오히려 역효과가 나타나므로 대응 도메인에 관한 한국어에서 단어 사전추출 학습 말뭉치에 적용한다.
이때 자동 추출 스크립트를 사용하고, 이를 통해 대응 도메인 고유명사 번역률을 향상시킬 수 있다.
도 7은 도 2에 나타낸 사전추출을 이용한 말뭉치 증강방법의 순서도이다.
도 7에 도시된 바와 같이 먼저 입력부(10)의 출발어(소스) 즉, 학습용으로 구축된 병렬 말뭉치의 번역문(한국어) 말뭉치에서 병기 포함한 문장만 추출한다(S51).
다음 프로그램 스크립트를 활용해서 아래의 표 5와 같이 추출 병기 포함 문장에서 "단어(병기)"로 되어있는 부분을 일괄 추출하되, 고빈도 단어 위주로 추출하고 저빈도 1~2글자 단어는 정제한다(S52).
Figure 112021135540218-pat00005
다음 추출 원문(괄호안 병기)(S53)과 추출 번역문(한국어)(S54) 단어를 매칭하여 원문과 번역문을 병합하고(S55), 정제 작업을 한다(S56).
이때 원문 대 번역문의 사전쌍의 글자수가 매칭되는 것을 원칙으로 해서(S57) 글자수가 매칭되는 경우(매칭되지 않는 경우 삭제) 사전 말뭉치를 정제하고(S58) 최종 사전추출 말뭉치를 증강하여(S59) 말뭉치 양을 늘린다.
도 2의 상기 명사치환을 이용한 증강방법(S60)에 대해 설명하면, 상기 S50 단계에서 추출된 사전(명사 사전)을 이용하여 사전추출 위치의 단어를 랜덤으로 치환하여 병렬 말뭉치의 양의 늘려 사용한다.
한 패턴문장은 대칭할 단어쌍의 수량에 따라 그 수량만큼 늘어난다.
패턴지정 시 한국어 단어 위치 뒤에 조사가 있을 시 "유종성, 무종성" 인 단어가 오는가에 따라 조사 변환을 해야 함으로 이점 감안해서 패턴을 지정한다.
더 나아가서 숫자관련 잘 나오지 않는 도메인에 대해 숫자패턴을 구축해서 대량 적용하는 것도 좋은 영향을 받는다.
같은 문장 패턴에서 사용되는 명사 부분만을 다른 명사로 치환하여 한문 고서 말뭉치의 양을 대폭 늘릴 수 있다.
이를 통해 말뭉치 내의 고유명사(인명, 지명, 직책 등)가 들어가 있는 문장을 패턴 말뭉치로 만들어서 단어쌍 치환으로 대용량 구축을 할 수 있다.
도 8은 도 2에 나타낸 명사치환을 이용한 말뭉치 증강방법의 순서도이다.
도 8에 도시된 바와 같이 먼저 입력부(10)의 출발어(소스) 즉, 학습용으로 구축된 병렬 말뭉치에서, 명사 자리의 패턴 규칙을 찾아내서(확인하여)(S61) 패턴 말뭉치를 구축한다(S62).
Figure 112021135540218-pat00006
다음 패턴 말뭉치에 적용 가능한 단어쌍을 구축한다(S63).
다음 프로그램 스크립트를 이용해서 그 단어쌍을 패턴 말뭉치에 일괄 적용하여 치환하고(S64), 최종 패턴 말뭉치를 증강하여(S65) 말뭉치 양을 늘린다.
이상에서 본 발명에 대한 기술 사상을 첨부 도면과 함께 서술하였지만, 이는 본 발명의 바람직한 실시예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다.
또한, 이 기술 분야의 통상의 지식을 가진 자라면 누구나 본 발명의 기술 사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방이 가능함은 명백한 사실이다.
10: 입력부 20: 증강부
30: 출력부

Claims (7)

  1. 입력부의 출발어(소스)인 학습용으로 구축된 병렬 말뭉치를, 증강부에서 사전추출(E)의 기법으로 증강해서, 출력부에 도착어(타겟)로 출력하는 것에 의해, 말뭉치 양을 늘리되;
    상기 사전추출(E)을 이용하는 증강방법은,
    상기 학습용으로 구축된 병렬 말뭉치의 번역문(한국어) 말뭉치에서 병기가 포함된 문장만 추출하는 단계,
    프로그램 스크립트를 활용해서 상기 추출된 병기가 포함된 문장에서 "단어(병기)"로 되어있는 부분을 일괄 추출하는 단계,
    추출 원문(괄호안 병기)과 추출 번역문(한국어) 단어를 매칭하여 원문과 번역문을 병합하는 단계,
    사전 말뭉치를 정제하고 최종 사전추출 말뭉치를 증강하는 단계로 이루어지고;
    상기 사전추출(E)을 이용하여 증강한 이후에 명사치환(F)을 이용한 증강방법을 더 수행하되, 상기 명사치환(F)을 이용한 증강방법은,
    사전(명사) 자리의 패턴 규칙을 찾아내서 패턴 말뭉치를 구축하는 단계,
    상기 패턴 말뭉치에 적용 가능한 단어쌍을 구축하는 단계,
    프로그램 스크립트를 이용해서 그 단어쌍을 패턴 말뭉치에 일괄 적용하여 치환하고, 최종 패턴 말뭉치를 증강하는 단계로 이루어지는 것을 특징으로 하는 기계번역 모델을 위한 한문고서 말뭉치 증강방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
KR1020210163048A 2021-11-24 2021-11-24 기계번역 모델을 위한 한문고서 말뭉치 증강방법 KR102395811B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210163048A KR102395811B1 (ko) 2021-11-24 2021-11-24 기계번역 모델을 위한 한문고서 말뭉치 증강방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210163048A KR102395811B1 (ko) 2021-11-24 2021-11-24 기계번역 모델을 위한 한문고서 말뭉치 증강방법

Publications (1)

Publication Number Publication Date
KR102395811B1 true KR102395811B1 (ko) 2022-05-09

Family

ID=81583134

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210163048A KR102395811B1 (ko) 2021-11-24 2021-11-24 기계번역 모델을 위한 한문고서 말뭉치 증강방법

Country Status (1)

Country Link
KR (1) KR102395811B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102593448B1 (ko) 2022-11-14 2023-10-24 고려대학교 산학협력단 의미적 유사도 기반 병렬 말뭉치 정제 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110050296A (ko) * 2009-11-06 2011-05-13 한국전자통신연구원 병렬 말뭉치 추출 시스템 및 방법
KR20140059877A (ko) 2012-11-08 2014-05-19 한국전자통신연구원 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치
KR20160009916A (ko) * 2014-07-17 2016-01-27 동아대학교 산학협력단 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법
KR20190060227A (ko) * 2017-11-24 2019-06-03 한국전자통신연구원 병렬 코퍼스 정제 장치 및 방법
KR20200083111A (ko) * 2018-12-31 2020-07-08 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110050296A (ko) * 2009-11-06 2011-05-13 한국전자통신연구원 병렬 말뭉치 추출 시스템 및 방법
KR20140059877A (ko) 2012-11-08 2014-05-19 한국전자통신연구원 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치
KR20160009916A (ko) * 2014-07-17 2016-01-27 동아대학교 산학협력단 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법
KR20190060227A (ko) * 2017-11-24 2019-06-03 한국전자통신연구원 병렬 코퍼스 정제 장치 및 방법
KR20200083111A (ko) * 2018-12-31 2020-07-08 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
박찬준 외. 신경망 기계번역에서 최적화된 데이터 증강기법 고찰. 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리). 2019.* *
인공지능 데이터셋 구축 가이드북. 한국정보통신기술협회. 2020.1.. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102593448B1 (ko) 2022-11-14 2023-10-24 고려대학교 산학협력단 의미적 유사도 기반 병렬 말뭉치 정제 방법 및 장치

Similar Documents

Publication Publication Date Title
Kriz et al. Complexity-weighted loss and diverse reranking for sentence simplification
Lane-Mercier Translating the untranslatable: The translator's aesthetic, ideological and political responsibility
Bawden et al. The University of Edinburgh's Submissions to the WMT19 News Translation Task
Stojanovski et al. Improving anaphora resolution in neural machine translation using curriculum learning
Eryani et al. A spelling correction corpus for multiple Arabic dialects
KR20140049150A (ko) 사용자 참여 기반의 자동 번역 생성 후처리 시스템
Kayahan et al. A hybrid translation system from Turkish spoken language to Turkish sign language
KR102395811B1 (ko) 기계번역 모델을 위한 한문고서 말뭉치 증강방법
Ranathunga et al. Si-ta: Machine translation of sinhala and tamil official documents
Tonja et al. A parallel corpora for bi-directional neural machine translation for low resourced ethiopian languages
Dhanani et al. FAST-MT Participation for the JOKER CLEF-2022 Automatic Pun and Humour Translation Tasks
Chiruzzo et al. Translating Spanish into Spanish Sign Language: Combining rules and data-driven approaches
Altıntaş Turkish to Crimean Tatar machine translation system
Costa et al. Towards an open platform for machine translation of spoken languages into sign languages
KR20200015062A (ko) 전통기록물 번역을 위한 학습 방법, 이를 수행하기 위한 장치 및 기록매체
Popescu-Belis et al. GPoeT: a language model trained for rhyme generation on synthetic data
García et al. Implementation of neural machine translation for Nahuatl as a web platform: a focus on text translation
Hossain et al. Bert-based text simplification approach to reduce linguistic complexity of bangla language
Schlippe et al. Multilingual Text Simplification and its Performance on Social Sciences Coursebooks
Zacharias et al. Extending the Vocabulary of Fictional Languages using Neural Networks
Liu et al. Sentence Simplification Using Paraphrase Corpus for Initialization
Popescu-Belis et al. Constrained language models for interactive poem generation
Poncelas et al. Controlling Japanese Machine Translation Output by Using JLPT Vocabulary Levels
Meyer et al. Subword segmental machine translation: Unifying segmentation and target sentence generation
WO2024004184A1 (ja) 生成装置、生成方法、及びプログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant