KR20240074344A - Measurement of Chinese Language Translation Quality of Automatic Translator Based on Representative Language - Google Patents

Measurement of Chinese Language Translation Quality of Automatic Translator Based on Representative Language Download PDF

Info

Publication number
KR20240074344A
KR20240074344A KR1020220156314A KR20220156314A KR20240074344A KR 20240074344 A KR20240074344 A KR 20240074344A KR 1020220156314 A KR1020220156314 A KR 1020220156314A KR 20220156314 A KR20220156314 A KR 20220156314A KR 20240074344 A KR20240074344 A KR 20240074344A
Authority
KR
South Korea
Prior art keywords
translation
words
representative
normalized
automatic
Prior art date
Application number
KR1020220156314A
Other languages
Korean (ko)
Inventor
채흥석
Original Assignee
주식회사 에이비씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이비씨 filed Critical 주식회사 에이비씨
Priority to KR1020220156314A priority Critical patent/KR20240074344A/en
Publication of KR20240074344A publication Critical patent/KR20240074344A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 단어들 중 같은 의미를 가지는 단어들에 대한 대표어를 만드는 대표어 데이터베이스 생성단계와, 한문고어원문과 정답문으로 이용하기 위해 한문고어원문을 번역한 번역문이 포함되는 한문고어 병렬 말뭉치를 생성하는 한문고어 병렬 말뭉치 생성단계와, 상기 한문고어 병렬 말뭉치 생성단계에서의 한문고어원문을 자동번역기를 통해 번역한 자동번역문을 생성하는 자동번역문 생성단계와, 상기 대표어 데이터베이스 생성단계에서 생성한 대표어 데이터베이스에 저장된 대표어를 이용하여 자동번역문 생성단계에서 생성한 자동번역문에 적용된 단어들을 대표어로 치환하여 번역율 평가를 위한 자동번역문인 정규화된 번역문을 생성하는 정규화된 번역문 생성단계와, 상기 대표어 데이터베이스 생성단계에서의 대표어 데이터베이스에 저장된 대표어를 이용하여 한문고어 병렬 말뭉치 생성단계에서의 한문고어 병렬 말뭉치에 포함된 번역문에 적용된 단어들을 대표어로 치환하여 번역율 평가를 위한 정답문인 정규화된 평가셋을 생성하는 정규화된 평가셋 생성단계와, 상기 정규화된 번역문 생성단계에서의 정규화된 번역문과 정규화된 평가셋 생상단계에서의 정규화된 평가셋을 N-gram을 이용하여 번역문의 정확도를 평가하는 번역문 평가단계를 포함하여 이루어져 있어, 단어들 중 같은 의미를 가지는 단어들에 대한 대표어를 만들어 이를 정답문과 자동번역문에 대표어 치환 과정을 거친 후 이들을 평가함으로써 외형적 형태가 다르더라도 더욱 높은 유사도를 반영하여 번역의 정확도에 대한 정확한 평가가 이루어질 수 있는 대표어를 기반으로 하는 자동번역기의 한문고어 번역품질 측정방법을 제공한다.The present invention includes a representative word database creation step to create representative words for words with the same meaning among words, and an archaic Chinese language parallel corpus that includes an archaic Chinese language text and a translation of the original Chinese language text to be used as the correct answer. A step of generating an archaic Chinese language parallel corpus, an automatic translation generation step of generating an automatic translation of the original text of an archaic Chinese language from the archaic Chinese language parallel corpus generation step using an automatic translator, and a representative word database creation step. A normalized translation generation step of generating a normalized translation, which is an automatic translation for evaluating translation rates, by replacing words applied to the automatically translated text created in the automatic translation text generation step with representative words using representative words stored in the language database, and the representative word database Using the representative words stored in the representative word database in the creation stage, words applied to the translated sentences included in the archaic Chinese parallel corpus in the generation stage of the archaic Chinese language parallel corpus are replaced with representative words to create a normalized evaluation set that is the correct answer for evaluating the translation rate. a normalized evaluation set generation step, and a translation evaluation step of evaluating the accuracy of the translation using N-gram using the normalized translation from the normalized translation generation step and the normalized evaluation set from the normalized evaluation set generation step. It consists of creating representative words for words with the same meaning among words, going through a process of replacing representative words in the correct answer and automatic translation, and evaluating them to reflect a higher degree of similarity even if the external form is different. We provide a method for measuring the translation quality of archaic Chinese characters by an automatic translator based on representative words that can accurately evaluate accuracy.

Description

대표어를 기반으로 하는 자동번역기의 한문고어 번역품질 측정방법{Measurement of Chinese Language Translation Quality of Automatic Translator Based on Representative Language}{Measurement of Chinese Language Translation Quality of Automatic Translator Based on Representative Language}

본 발명은 단어들 중 같은 의미를 가지는 단어들에 대한 대표어를 적용해 자동번역의 번역율 평가시 적용하여 번역의 유사도에 대한 정확성을 향상시킬 수 있는 대표어를 기반으로 하는 자동번역기의 한문고어 번역품질 측정방법에 관한 것이다.The present invention applies representative words for words with the same meaning among words and applies them when evaluating the translation rate of automatic translation, thereby improving the accuracy of the similarity of translation. It is about quality measurement methods.

현재 자동 번역기(또는 자동 번역 엔진)의 번역 품질을 자동으로 측정하는 방법으로 BLEU 측정 방법이 주로 사용된다.Currently, the BLEU measurement method is mainly used as a method to automatically measure the translation quality of an automatic translator (or automatic translation engine).

BLEU 측정 방법은 번역 원문에 대해 복수의 번역문을 정답으로 하여 정답 집합을 생성한다. 이후, 정답 집합과 자동 번역 결과의 NGRAM 매칭을 통해 자동 번역 결과가 얼마나 정답 번역문과 유사한지 정량적으로 측정한다.The BLEU measurement method creates a set of correct answers by using multiple translated texts as the correct answers to the original translated text. Afterwards, through NGRAM matching between the set of correct answers and the automatic translation results, we quantitatively measure how similar the automatic translation results are to the correct translation.

실험실에서 실험용으로 사용되는 종래의 번역품질을 자동으로 평가하는 방법은 BLEU(bilingual evaluation understudy)와 METEOR(An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments) 등의 지표를 통해 번역문을 평가하고, 원문과 타겟 참고문의 매칭 정도를 분석하는 것이다. 예를 들어 BLEU는 연속 문자열, 즉 n-gram의 매칭 정도를 중점적으로 파악한다. METEOR 등 지표는 BLEU를 기반으로 보충하여, 텍스트가 같은 문자열을 매칭시킬 수 있을 뿐만 아니라 일부 추가 자원을 도입하여 텍스트가 다르지만 의미는 같은 문자열을 식별할 수 있다.The conventional method of automatically evaluating translation quality used for experiments in laboratories is to evaluate the translation through indicators such as BLEU (bilingual evaluation understudy) and METEOR (An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments), and evaluate the original text. The goal is to analyze the degree of matching between the and target references. For example, BLEU focuses on the degree of matching of continuous strings, that is, n-grams. Indicators such as METEOR can be supplemented based on BLEU to not only match strings with the same text, but also identify strings with different texts but the same meaning by introducing some additional resources.

그러나 통역(oral translation) 현장에서 통역의 목적은 화자의 내용을 한 글자도 빼지 않고 통역하는 것이 아니다. 때때로 시간 지체를 줄이고 현지 문화에 맞추기 위해 통역자는 일반적으로 화자의 일부 내용을 삭제하고, 정보량이 많지 않은 문장을 줄임으로써 청중에게 최대한 실시간으로 핵심적인 정보를 전달한다. 이와 같은 상황에서 종래의 자동 평가 방법을 사용하면 통역문은 누락된 정보의 과다로 점수가 비교적 낮게 나와 평가 결과가 정확하지 않은 상황을 초래하기 쉽다. 예를 들어 종래의 방법으로 평가하면 다년간의 경험을 가진 통역사의 통역율은 70% 정도에 불과하며 통역 문장의 수용 가능 정도는 85% 이하이다.However, in the field of oral translation, the purpose of interpretation is not to interpret the speaker's content without leaving out a single word. Sometimes, to reduce time delays and adapt to local culture, interpreters typically delete some of the speaker's content and shorten sentences that do not contain much information, thereby conveying key information to the audience in as much real time as possible. In such a situation, if a conventional automatic evaluation method is used, the interpretation text is likely to receive a relatively low score due to excessive missing information, resulting in a situation in which the evaluation result is inaccurate. For example, when evaluated using conventional methods, the interpretation rate of interpreters with many years of experience is only about 70%, and the acceptable level of interpreted sentences is less than 85%.

종래의 번역품질 평가 방법은 인건비가 비싸고, 사람에 의한 평가는 서로 다른 평가자의 번역수준에 제한을 받으므로 평가 결과의 편차가 큰 편이다. 통역 상황에 대해 별도의 참고 번역문을 구축해야 하며, 동시에 종래의 방법도 통역문의 중요 정보를 구분할 수 없으므로, 오직 충실도에 의존하여 통역문의 품질을 측정할 수밖에 없다.Conventional translation quality evaluation methods have high labor costs, and human evaluation is limited by the translation level of different evaluators, so there is a large variation in evaluation results. A separate reference translation must be constructed for each interpretation situation, and at the same time, conventional methods cannot distinguish important information in the interpretation text, so the quality of the interpretation text can only be measured based on fidelity.

이러한, 문제점에 의해 종래에는 대한민국 공개특허 제10-2015-0029931호(이하, '특허문헌 1' 이라 함.)가 제안되었다.Due to these problems, Republic of Korea Patent Publication No. 10-2015-0029931 (hereinafter referred to as 'Patent Document 1') was proposed.

상기 특허문헌 1은 복수의 정답 집합들, 확장 사전, 언어 모델, 확장 정답 집합을 저장하는 저장부와, 상기 저장부에 저장된 복수의 정답 집합들 및 확장 사전을 근거로 번역 원문에 대한 하나 이상의 정답문을 생성하는 레퍼런스 확장부 및 상기 정답문들에 대한 사용자 단말의 승인 여부를 근거로 인증에 성공한 정답문들을 이용하여 확장 정답 집합을 생성하고, 상기 생성한 확장 정답 집합을 상기 저장부에 저장하는 레퍼런스 확장 인증부를 포함하여 이루어져 있어, 정답 집합의 정답문을 확장하여 번역품질을 높일 수 있도록 구성되어 있다.Patent Document 1 includes a storage unit that stores a plurality of answer sets, an extended dictionary, a language model, and an extended answer set, and one or more correct answers to the translated original text based on the plurality of answer sets and the extended dictionary stored in the storage unit. A reference extension unit that generates a statement and a set of extended correct answers are generated using the correct answers that have successfully been authenticated based on whether the user terminal approves the correct answers, and the set of extended correct answers is stored in the storage unit. It consists of a reference expansion authentication unit, so that the translation quality can be improved by expanding the correct answers in the correct answer set.

(특허문헌 1) KR 10-2015-0029931 A 자동 번역기의 번역 품질 측정을 위한 정답 집합 확장 장치 및 방법(Patent Document 1) KR 10-2015-0029931 A Apparatus and method for expanding the set of correct answers for measuring translation quality of an automatic translator

상기 특허문헌 1은 앞서 설명한 것과 같이 다수의 정답 집합의 정답문을 확장하여 이루어져 있으나, 이는 단순히 사전 및 다수의 언어모델을 이용한 것에 불과하여 같은 의미이지만 외형적 특징이 다른 단어의 경우 여전히 다른 의미로 해석되어 다른 번역평가가 이루어지는 문제점이 있었다.As described above, Patent Document 1 consists of expanding the correct answer of a set of multiple correct answers, but this is simply using a dictionary and multiple language models, so words with the same meaning but different external characteristics still have different meanings. There was a problem with the translation being interpreted and evaluated differently.

상기와 같은 문제점을 해결하기 위한 본 발명에 따른 대표어를 기반으로 하는 자동번역기의 한문고어 번역품질 측정방법은 단어들 중 같은 의미를 가지는 단어들에 대한 대표어를 만들어 이를 정답문과 자동번역문에 대표어 치환 과정을 거친 후 이들을 평가함으로써 외형적 형태가 다르더라도 더욱 높은 유사도를 반영하여 번역의 정확도에 대한 정확한 평가가 이루어질 수 있는 대표어를 기반으로 하는 자동번역기의 한문고어 번역품질 측정방법을 제공하는데 그 목적이 있다.To solve the above problems, the method of measuring the translation quality of archaic Chinese characters by an automatic translator based on representative words according to the present invention creates representative words for words with the same meaning among words and represents them in the correct answer and the automatic translation. We provide a method for measuring the translation quality of archaic Chinese characters by an automatic translator based on representative words that can accurately evaluate the accuracy of translation by reflecting higher similarity even if the external form is different by evaluating them after going through a word substitution process. It has a purpose.

본 발명은 단어들 중 같은 의미를 가지는 단어들에 대한 대표어를 만들어 이를 정답문과 자동번역문에 대표어 치환 과정을 거친 후 이들을 평가함으로써 외형적 형태가 다르더라도 더욱 높은 유사도를 반영하여 번역의 정확도에 대한 정확한 평가가 이루어질 수 있는 유용한 발명이다.The present invention creates representative words for words with the same meaning among words, goes through a representative word substitution process in the correct answer and an automatic translation, and then evaluates them to reflect a higher degree of similarity even if the external form is different, thereby improving the accuracy of translation. It is a useful invention that allows accurate evaluation of

도 1은 본 발명에 따른 대표어를 기반으로 하는 자동번역기의 한문고어 번역품질 측정방법을 도시한 블록도.
도 2는 본 발명에서의 번역문의 정규화 과정을 도시한 블록도.
Figure 1 is a block diagram showing a method of measuring the translation quality of archaic Chinese characters by an automatic translator based on representative words according to the present invention.
Figure 2 is a block diagram showing the normalization process of translated text in the present invention.

이하, 첨부된 도면을 이용하여 본 발명에 대해 보다 상세히 살펴보면 다음과 같다.Hereinafter, the present invention will be examined in more detail using the attached drawings.

본 발명은 도 1에서 도시된 바와 같이 단어들 중 같은 의미를 가지는 단어들에 대한 대표어를 만드는 대표어 데이터베이스 생성단계와, 한문고어원문과 정답문으로 이용하기 위해 한문고어원문을 번역한 번역문이 포함되는 한문고어 병렬 말뭉치를 생성하는 한문고어 병렬 말뭉치 생성단계와, 상기 한문고어 병렬 말뭉치 생성단계에서의 한문고어원문을 자동번역기를 통해 번역한 자동번역문을 생성하는 자동번역문 생성단계와, 상기 대표어 데이터베이스에 저장된 데이터를 이용하여 자동번역문 생성단계에서 생성한 자동번역문에 적용된 단어들을 대표어로 치환하여 번역율 평가를 위한 자동번역문인 정규화된 번역문을 생성하는 정규화된 번역문 생성단계와, 상기 대표어 데이터베이스에 저장된 데이터를 이용하여 한문고어 병렬 말뭉치 생성단계에서의 한문고어 병렬 말뭉치에 포함된 번역문에 적용된 단어들을 대표어로 치환화여 번역율 평가를 위한 정답문인 정규화된 평가셋을 생성하는 정규화된 평가셋 생성단계와, 상기 정규화된 번역문 생성단계에서의 정규화된 번역문과 정규화된 평가셋 생상단계에서의 정규화된 평가셋을 N-gram을 이용하여 번역문의 정확도를 평가하는 번역문 평가단계로 이루어져 있다.As shown in Figure 1, the present invention includes a representative word database creation step of creating representative words for words with the same meaning among words, and a translation of the original Chinese archetypal text to be used as the original text and the correct text. An archaic Chinese language parallel corpus generation step of generating an archaic Chinese language parallel corpus, an automatic translation generation step of generating an automatically translated text obtained by translating the archaic Chinese text from the archaic Chinese parallel corpus generation step using an automatic translator, and the representative word. A normalized translation generation step of generating a normalized translation, which is an automatic translation for evaluating the translation rate, by replacing the words applied to the automatic translation created in the automatic translation generation step with representative words using data stored in the database, and the representative word stored in the representative word database. A normalized evaluation set generation step of using data to replace words applied to the translations included in the archaic Chinese parallel corpus in the archaic Chinese parallel corpus with representative words to generate a normalized evaluation set that is the correct answer for evaluating the translation rate; It consists of a translation evaluation stage in which the accuracy of the translation is evaluated using N-gram using the normalized translation in the normalized translation generation stage and the normalized evaluation set in the normalized evaluation set generation stage.

우선, 대표어 데이터베이스 생성단계는 단어들 중 같은 의미를 가지는 단어들에 대한 대표어를 만들어 번역품질의 평가시 사용되는 데이터로서 단어들 중에서 동의어, 유의어, 방언, 고어, 비속어, 외래어의 의미를 대표할 수 있는 단어로 선정하여 외형적 특징에 따라 평가시 발생하는 오차를 줄이기 위한 단계이다.First, the representative word database creation stage is data used to evaluate translation quality by creating representative words for words with the same meaning, representing the meaning of synonyms, synonyms, dialects, archaic words, slang words, and foreign words among words. This is a step to reduce errors that occur when evaluating words based on external characteristics by selecting words that can be used.

다음으로, 한문고어 병렬 말뭉치 생성단계는 번역하고자 하는 한문고어원문과 한문고어원문을 전문가가 번역한 번역문을 포함한 한문고어 병렬 말뭉치를 생성하는 단계이다.Next, the step of creating an archaic Chinese parallel corpus is the step of creating an archaic Chinese parallel corpus that includes the archaic Chinese text to be translated and the translation of the archaic classical text by an expert.

다음으로, 자동변역문 생성단계는 한문고어 병렬 말뭉치 생성단계에서의 한문고어원문을 평가하고자 하는 자동번역기를 통해 자동 번역한 자동번역문을 생성하는 단계이다.Next, the automatically translated text generation step is the step of generating an automatically translated text through an automatic translator to evaluate the original Chinese text in the archaic Chinese language parallel corpus generation stage.

여기서, 상기 한문고어 병렬 말뭉치 생성단계에서 한문고어 병렬 말뭉치에 포함된 한문고어원문과 번역문은 다수의 문장이 포함될 수 있으며, 자동번역문 생성단계에서의 자동번역문은 한문고어 병렬 말뭉치의 전부 또는 일부만을 자동 번역한 자료일 수 있다.Here, in the step of creating the archaic Chinese language parallel corpus, the original text and translation of the archaic Chinese language included in the archaic Chinese parallel corpus may include a number of sentences, and the automatic translation in the automatic translation generation step automatically only includes all or part of the archaic Chinese language parallel corpus. It may be translated material.

다음으로, 정규화된 번역문 생성단계는 상기 대표어 데이터 베이스 생성단계에서 생성한 대표어를 이용하여 자동번역문 생성단계에서 생성한 자동문번역문에 적용된 단어를 대표어로 치환하여 번역율 평가를 위한 자동번역문인 정규화된 번역문을 생성하는 단계이다.Next, the normalized translation generation step uses the representative words created in the representative word database generation step to replace the words applied to the automatic translation created in the automatic translation generation step with representative words to create a normalized automatic translation for evaluating the translation rate. This is the step of creating a translation.

다음으로, 정규화된 평가셋 생성단계는 상기 대표어 데이터 베이스 생성단계에서 새성한 대표어를 이용하여 한문고어 병렬 말뭉치 생성단계에서의 한문고어 병렬 말뭉치에 포함된 번역문에 적용된 단어들을 대표어로 치환하여 번역율 평가를 위한 정답문인 정규화된 번역문을 생성하는 단계이다.Next, the normalized evaluation set generation step uses the representative words created in the representative word database creation step to replace the words applied to the translated text included in the ancient Chinese parallel corpus in the archaic Chinese language parallel corpus generation stage with representative words, thereby increasing the translation rate. This is the step of generating a normalized translation, which is the correct answer for evaluation.

즉, 본 발명에서 정규화된 번역문 생성단계와 규화된 평가셋 생성단계는 같은 의미를 가지고 있지만 외형적 형태가 다른 단어들에 대한 단어를 대표어로 치환시켜 외형적 형태가 다르더라도 같은 의미가 부여된 단어들에 대한 유사도를 평가하여 번역율 평가에 대한 신뢰성을 향상시킬 수 있는 것이다.In other words, in the present invention, the normalized translation generation step and the normalized evaluation set generation step substitute words for words that have the same meaning but different external forms into representative words, so that words are given the same meaning even though their external forms are different. By evaluating the similarity between the two, the reliability of the translation rate evaluation can be improved.

여기서, 정규화된 번역문 생성단계에서 정규화된 번역문의 정규화 과정과 정규화된 평가셋 생성단계에서의 정규화된 평가셋의 정규화 과정은 입력된 한글문장의 형태소를 분석하는 형태소 분석단계와, 상기 형태소 분석단계 이후 대표어 데이터 베이스에서 형태소에 따른 대표어를 검색하는 대표어 검색단계와, 상기 대표어 검색단계에서 검색된 대표어를 각각의 번역문에 치환하는 대표어 치환단계와 상기 대표어 치환단계를 통해 정규화된 문장을 완성하는 정규화된 문장 완성단계로 이루어질 수 있다.Here, the normalization process of the normalized translation in the normalized translation generation step and the normalization process of the normalized evaluation set in the normalized evaluation set generation step include a morpheme analysis step of analyzing the morphemes of the input Korean sentence, and after the morpheme analysis step. A representative word search step of searching for representative words according to morphemes in the representative word database, a representative word substitution step of substituting representative words searched in the representative word search step into each translation, and sentences normalized through the representative word substitution step. It can be accomplished through a normalized sentence completion step that completes .

다음으로, 번역문 평가단계는 정규화된 번역문 생성단계에서의 정규화된 번역문과 정규화된 평가셋 생상단계에서의 정규화된 평가셋을 N-gram을 이용하여 번역문의 정확도를 평가하는 단계이다.Next, the translation evaluation step is a step in which the accuracy of the translation is evaluated using N-gram using the normalized translation from the normalized translation generation step and the normalized evaluation set from the normalized evaluation set generation step.

상기와 같은 단계로 이루어진 본 발명에 따른 대표어를 기반으로 하는 자동번역기의 한문고어 번역품질 측정방법의 실시 예를 통해 본 발명의 작용효과를 살펴보면 다음과 같다.The effects of the present invention will be examined through an example of the method for measuring the translation quality of archaic Chinese characters in an automatic translator based on representative words according to the present invention, which consists of the steps described above.

우선, 본 발명은 자동번역기의 정확도에 대한 올바른 평가를 위해 단어들 중 같은 의미를 가지는 단어들에 대한 대표어를 정답문인 번역문과 자동번역문에 적용한 후 이를 비교하도록 되어 있다.First, in order to properly evaluate the accuracy of the automatic translator, the present invention applies representative words for words with the same meaning to the correct translation and the automatic translation and then compares them.

우선, 정규화된 평가셋에 대한 예시를 살펴보면,First, let's look at an example of a normalized evaluation set:

단어들에 대한 대표어 데이터 베이스 생성단계에서 생성한 데이터 중 일부의 대표어가 [표 1]과 같이 정의되어 있다.Representative words for some of the data created in the database creation stage for representative words are defined as in [Table 1].

상기와 같이 대표어가 정의된 상태에서 하기의 [표 2]에서와 같이 한문고어원문을 사람이 번역한 번역문에 [표 1]에서의 대표어를 적용하게 되면 정규화된 평가셋을 생성할 수 있다.With the representative words defined as above, a normalized evaluation set can be created by applying the representative words in [Table 1] to the human translation of the ancient Chinese text as shown in [Table 2] below.

여기서, 상기 정규화된 평가셋을 생성하는 과정은 도 2에서와 같은 과정을 통해 이루어지게 된다.Here, the process of generating the normalized evaluation set is performed through the same process as in FIG. 2.

한편, 정규화된 번역문 생성단계에 대한 예시를 살펴보면,Meanwhile, looking at an example of the normalized translation generation step,

단어들에 대한 대표어 데이터 베이스 생성단계에서 생성한 데이터 중 일부의 대표어가 [표 3]과 같이 정의되어 있다.Representative words for some of the data created in the database creation stage for representative words are defined as in [Table 3].

상기와 같이 대표어가 정의된 상태에서 하기의 [표 4]에서와 같이 한문고어원문을 자동번역기를 통해 번역한 자동번역문에 [표 3]에서의 대표어를 적용하게 되면 정규화된 번역문을 생성할 수 있다.With the representative words defined as above, a normalized translation can be created by applying the representative words in [Table 3] to the automatic translation of the ancient Chinese text through an automatic translator as shown in [Table 4] below. there is.

여기서, 상기 정규화된 번역문을 생성하는 과정은 도 2에서와 같은 과정을 통해 이루어지게 된다.Here, the process of generating the normalized translation is carried out through the same process as in FIG. 2.

통상적으로 단어의 같은 의미를 지닌 단어의 경우 외형적 특징이 다르더라도 사람은 이를 인지 하지만 사람 이외의 평가를 위한 단말기에서는 번역율 평가시 이를 다른 단어로 인식하여 올바른 번역이 아니라고 인식할 수 있다.Normally, in the case of words with the same meaning, people recognize them even if their external characteristics are different, but in terminals for evaluation other than humans, when evaluating the translation rate, they may recognize them as different words and not recognize them as correct translations.

하지만 본 발명은 상기 [표 1], [표3]에서 보는 바와 같이 같은 의미를 가지고 있지만 외형적 특징이 다른 단어에 대한 대표어를 만들어 각각의 번역문에 포함된 단어들을 대표어로 치환시킨 후 대표어로 정규화된 문장들을 n-gram 유사도 비교 방식으로 번역문의 번역 정확도를 평가하여 자동 평가의 정확도가 높아지는 효과를 얻을 수 있다.However, as shown in [Table 1] and [Table 3], the present invention creates representative words for words that have the same meaning but different external characteristics, replaces the words included in each translation with representative words, and then replaces them with representative words. By evaluating the translation accuracy of normalized sentences using an n-gram similarity comparison method, the accuracy of automatic evaluation can be increased.

여기서, n-gram 유사도에서 "n-gram"이란 n개의 연속적인 단어 나열을 의미하며, n개의 토큰이 있다는 의미와 같다.Here, in n-gram similarity, “n-gram” means a list of n consecutive words, which means that there are n tokens.

유사도 비교에서는 문장을 bi-gram이나 tri-gram등으로 tokenize하여 만들어진 전체 토큰수에 대한 두개의 문장이 가지고 있는 동일한 토큰의 갯수를 기준으로 유사도를 평가하게 되며, 본 발명에서는 대표어로 정규화된 문장을 n-gram 비교함으로써 유의미한 동일한 토큰의 갯수를 크게 확대하는 방식으로 어휘 기반으로 비교하였을 때보다 의미적 유사도가 반영되는 효과가 있어 자동평가의 정확도를 높일 수 있게 된다.In similarity comparison, the similarity is evaluated based on the number of identical tokens in the two sentences relative to the total number of tokens created by tokenizing the sentences into bi-grams, tri-grams, etc. In the present invention, sentences normalized to representative words are used. By greatly expanding the number of meaningful identical tokens by comparing n-grams, it has the effect of reflecting semantic similarity compared to vocabulary-based comparison, thereby improving the accuracy of automatic evaluation.

상술한 실시 예는 본 발명의 바람직한 일 실시 예에 대해 기재한 것이지만 본 발명은 이에 한정되지 않고 본 발명의 기술적인 사상에서 벗어나지 않는 범위 내에서 다양한 형태로 변경하여 실시할 수 있음은 본 발명에 속하는 통상의 기술자들에게 있어 명백한 것임을 명시한다.Although the above-described embodiment describes a preferred embodiment of the present invention, the present invention is not limited thereto and may be modified and implemented in various forms without departing from the technical spirit of the present invention. It is stated that this is obvious to those skilled in the art.

Claims (3)

단어들 중 같은 의미를 가지는 단어들에 대한 대표어를 만드는 대표어 데이터베이스 생성단계;
한문고어원문과 정답문으로 이용하기 위해 한문고어원문을 번역한 번역문이 포함되는 한문고어 병렬 말뭉치를 생성하는 한문고어 병렬 말뭉치 생성단계;
상기 한문고어 병렬 말뭉치 생성단계에서의 한문고어원문을 자동번역기를 통해 번역한 자동번역문을 생성하는 자동번역문 생성단계;
상기 대표어 데이터베이스 생성단계에서 생성한 대표어 데이터베이스에 저장된 대표어를 이용하여 자동번역문 생성단계에서 생성한 자동번역문에 적용된 단어들을 대표어로 치환하여 번역율 평가를 위한 자동번역문인 정규화된 번역문을 생성하는 정규화된 번역문 생성단계;
상기 대표어 데이터베이스 생성단계에서의 대표어 데이터베이스에 저장된 대표어를 이용하여 한문고어 병렬 말뭉치 생성단계에서의 한문고어 병렬 말뭉치에 포함된 번역문에 적용된 단어들을 대표어로 치환하여 번역율 평가를 위한 정답문인 정규화된 평가셋을 생성하는 정규화된 평가셋 생성단계;
상기 정규화된 번역문 생성단계에서의 정규화된 번역문과 정규화된 평가셋 생상단계에서의 정규화된 평가셋을 N-gram을 이용하여 번역문의 정확도를 평가하는 번역문 평가단계를 포함하여 이루어진 것에 특징이 있는 대표어를 기반으로 하는 자동번역기의 한문고어 번역품질 측정방법.
A representative word database creation step of creating representative words for words with the same meaning among words;
An archaic Chinese language parallel corpus generation step of generating an archaic Chinese language parallel corpus that includes the original text of the ancient Chinese language and the translation of the original text to be used as the correct answer;
An automatic translation generation step of generating an automatic translation of the original text from the ancient Chinese language parallel corpus generation step using an automatic translator;
Normalization to generate a normalized translation, which is an automatic translation for evaluating translation rates, by replacing the words applied to the automatically translated text created in the automatic translation text generation step with representative words using the representative words stored in the representative word database created in the representative word database creation step. Translated text generation step;
Using the representative words stored in the representative word database in the representative word database creation step, the words applied to the translated text included in the archaic Chinese parallel corpus in the archaic Chinese language parallel corpus in the archaic Chinese language parallel corpus are replaced with representative words to normalize the correct answer text for evaluating the translation rate. A normalized evaluation set generation step of generating an evaluation set;
A representative word characterized in that it includes a translation evaluation step of evaluating the accuracy of the translation using N-gram using the normalized translation in the normalized translation generation step and the normalized evaluation set in the normalized evaluation set generation step. A method of measuring the translation quality of ancient Chinese characters by an automatic translator based on .
제1항에 있어서, 상기 대표어 데이터 베이스 생성단계에서 대표어 데이터 베이스는 단어들 중에서 동의어, 유의어, 방언, 고어, 비속어, 외래어의 의미를 대표할 수 있는 단어로 선정하는 것에 특징이 있는 대표어를 기반으로 하는 자동번역기의 한문고어 번역품질 측정방법.
According to claim 1, in the step of creating the representative word database, the representative word database is characterized by selecting words that can represent the meaning of synonyms, synonyms, dialects, archaic words, slang words, and foreign words among words. A method of measuring the translation quality of ancient Chinese characters by an automatic translator based on .
제1항에 있어서, 상기 정규화된 번역문 생성단계에서 정규화된 번역문의 정규화 과정과 정규화된 평가셋 생성단계에서의 정규화된 평가셋의 정규화 과정은,
입력된 한글문장의 형태소를 분석하는 형태소 분석단계와,
상기 형태소 분석단계 이후 대표어 데이터 베이스에서 형태소에 따른 대표어를 검색하는 대표어 검색단계와,
상기 대표어 검색단계에서 검색된 대표어를 각각의 번역문에 치환하는 대표어 치환단계와
상기 대표어 치환단계를 통해 정규화된 문장을 완성하는 정규화된 문장 완성단계로 이루어지는 것에 특징이 있는 대표어를 기반으로 하는 자동번역기의 한문고어 번역품질 측정방법.
The method of claim 1, wherein the normalization process of the normalized translation text in the normalized translation text generation step and the normalization process of the normalized evaluation set in the normalized evaluation set generation step are:
A morpheme analysis step of analyzing the morphemes of the input Hangul sentence,
After the morpheme analysis step, a representative word search step of searching for representative words according to morphemes in the representative word database,
A representative word substitution step in which representative words searched in the representative word search step are replaced with each translation;
A method of measuring the translation quality of archaic Chinese characters by an automatic translator based on representative words, which is characterized by consisting of a normalized sentence completion step of completing the normalized sentence through the representative word substitution step.
KR1020220156314A 2022-11-21 2022-11-21 Measurement of Chinese Language Translation Quality of Automatic Translator Based on Representative Language KR20240074344A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220156314A KR20240074344A (en) 2022-11-21 2022-11-21 Measurement of Chinese Language Translation Quality of Automatic Translator Based on Representative Language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220156314A KR20240074344A (en) 2022-11-21 2022-11-21 Measurement of Chinese Language Translation Quality of Automatic Translator Based on Representative Language

Publications (1)

Publication Number Publication Date
KR20240074344A true KR20240074344A (en) 2024-05-28

Family

ID=91277473

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220156314A KR20240074344A (en) 2022-11-21 2022-11-21 Measurement of Chinese Language Translation Quality of Automatic Translator Based on Representative Language

Country Status (1)

Country Link
KR (1) KR20240074344A (en)

Similar Documents

Publication Publication Date Title
JP4654745B2 (en) Question answering system, data retrieval method, and computer program
US20080270112A1 (en) Translation evaluation device, translation evaluation method and computer program
JP2005532605A (en) Content conversion method and apparatus
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
JP2005539280A (en) Multilingual database creation system and method
JP3765799B2 (en) Natural language processing apparatus, natural language processing method, and natural language processing program
JP2018206262A (en) Word linking identification model learning device, word linking detection device, method and program
KR20040004558A (en) Content conversion method and apparatus
Ströbel et al. Evaluation of HTR models without ground truth material
Sifat et al. Synthetic error dataset generation mimicking bengali writing pattern
Gerlach Improving statistical machine translation of informal language: a rule-based pre-editing approach for French forums
Skadiņa et al. NMT or SMT: case study of a narrow-domain English-Latvian post-editing project
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
Mara English-Wolaytta Machine Translation using Statistical Approach
Makrai et al. Towards abstractive summarization in Hungarian
KR20240074344A (en) Measurement of Chinese Language Translation Quality of Automatic Translator Based on Representative Language
Kirchhoff et al. Semi-automatic error analysis for large-scale statistical machine translation
JP3326646B2 (en) Dictionary / rule learning device for machine translation system
MILAD Comparative evaluation of translation memory (tm) and machine translation (mt) systems in translation between arabic and english
Maksymenko et al. Improving the machine translation model in specific domains for the ukrainian language
JP4041875B2 (en) Written word style conversion system and written word style conversion processing program
Afli et al. From Arabic user-generated content to machine translation: integrating automatic error correction
Nerbonne et al. Some further dialectometrical steps
Steingrímsson Effectively compiling parallel corpora for machine translation in resource-scarce conditions
WO2024004184A1 (en) Generation device, generation method, and program