KR102653880B1 - 번역 품질 평가 장치 및 방법 - Google Patents

번역 품질 평가 장치 및 방법 Download PDF

Info

Publication number
KR102653880B1
KR102653880B1 KR1020220178652A KR20220178652A KR102653880B1 KR 102653880 B1 KR102653880 B1 KR 102653880B1 KR 1020220178652 A KR1020220178652 A KR 1020220178652A KR 20220178652 A KR20220178652 A KR 20220178652A KR 102653880 B1 KR102653880 B1 KR 102653880B1
Authority
KR
South Korea
Prior art keywords
translation
text
translation quality
quality evaluation
original text
Prior art date
Application number
KR1020220178652A
Other languages
English (en)
Inventor
고원희
최진혁
최규동
박서현
백선호
Original Assignee
주식회사 트위그팜
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 트위그팜 filed Critical 주식회사 트위그팜
Priority to KR1020220178652A priority Critical patent/KR102653880B1/ko
Application granted granted Critical
Publication of KR102653880B1 publication Critical patent/KR102653880B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

본 발명의 일 실시예에 따른 번역 품질 평가 장치는 통신모듈; 번역 품질 평가 프로그램이 저장된 메모리; 및 프로그램을 실행하는 프로세서를 포함하되, 번역 품질 평가 프로그램은, 제1언어로 작성된 원문과 제2언어로 작성된 번역문을 수신하고, 번역문에 대하여 제1언어로 기계 번역을 수행하여 제1언어로 작성된 역번역문을 생성하고, 원문, 번역문 및 역번역문으로 구성된 말뭉치에 기초하여 연산한 원문과 번역문 간의 제1 코사인 유사도와 원문과 역번역문 간의 제2 코사인 유사도를 점수 예측 모델에 입력하여 번역 품질 점수를 산출한다.

Description

번역 품질 평가 장치 및 방법{APPARATUS AND METHOD FOR ASSESSING TRANSLATION QUALITY}
본 발명은 번역 품질 평가 장치 및 방법에 관한 것이다.
최근 들어 인공 지능 기술이 발전함에 따라 이를 이용하는 다양한 형태의 기계 번역 서비스가 제공되고 있다.
특히, 포털 검색 엔진을 기반으로 인터넷 비즈니스를 수행하던 기업들이 기존에 확보한 인프라를 중심으로 기계 번역 서비스를 활발하게 진행하고 있다. 또한, 기계 번역 서비스를 제공하던 업체에서도 기계 번역 서비스를 고도화하여 서비스를 제공하고 있다.
이와 같이 번역 학습 데이터가 점차 확보되고 있는 가운데 번역 품질에 대한 논의가 점차 수면 위로 떠오르고 있다. 번역 품질을 개선하기 위해 선행되어야 할 것은 번역 품질의 측정이다. 번역 품질이 수치로서 명시적으로 표시되면 한정된 자원과 시간으로 최대한의 번역 품질 개선 효과를 낼 수 있기 때문이다.
본 발명에서는 원문 및 번역문 문장 쌍으로 구성된 말뭉치에 대한 번역 품질을 평가할 수 있는 점수를 제공할 수 있는 기술을 제안하고자 한다.
대한민국 공개 특허 10-2021-0030238 (발명의 명칭: " 번역문 품질 예측 모델 학습 장치 및 방법")
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 원문, 번역문 및 역번역문으로 구성된 말뭉치에 기초하여 연산한 각 코사인 유사도를 점수 예측 모델에 입력하여 번역 말뭉치에 대한 번역 품질 점수를 제공하는 번역 품질 평가 장치 및 방법을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예에 따른 번역 품질 평가 장치는 통신모듈; 번역 품질 평가 프로그램이 저장된 메모리; 및 프로그램을 실행하는 프로세서를 포함하되, 번역 품질 평가 프로그램은, 제1언어로 작성된 원문과 제2언어로 작성된 번역문을 수신하고, 번역문에 대하여 제1언어로 기계 번역을 수행하여 제1언어로 작성된 역번역문을 생성하고, 원문, 번역문 및 역번역문으로 구성된 말뭉치에 기초하여 연산한 원문과 번역문 간의 제1 코사인 유사도와 원문과 역번역문 간의 제2 코사인 유사도를 점수 예측 모델에 입력하여 번역 품질 점수를 산출한다.
본 발명의 다른 실시예에 따른 번역 품질 평가 장치를 이용한 번역 품질 평가 방법은 (a) 제1언어로 작성된 원문과 제2언어로 작성된 번역문을 수신하는 단계; (b) 번역문에 대하여 제1언어로 기계 번역을 수행하여 제1언어로 작성된 역번역문을 생성하는 단계; 및 (c) 원문, 번역문 및 역번역문으로 구성된 말뭉치에 기초하여 연산한 원문과 번역문 간의 제1 코사인 유사도와 원문과 역번역문 간의 제2 코사인 유사도를 점수 예측 모델에 입력하여 번역 품질 점수를 산출하는 단계를 포함한다.
전술한 본 발명의 과제 해결 수단에 의하면, 해당 번역 말뭉치에서 개선을 위해 요구하는 수정 작업의 수준을 번역 품질 점수로 제시하여 번역 말뭉치에 대한 검수 작업의 편의성을 향상시킨다.
더불어, 해당 번역 말뭉치에서 개선이 필요한 데이터를 구분할 수 있어, 기존에 공개된 번역 말뭉치의 품질을 향상시키고, 차후 구축되는 번역 말뭉치에 대해서도 선제적인 평가가 가능하다.
도 1은 본 발명의 일 실시예에 따른 번역 품질 평가 시스템을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 번역 품질 평가 장치의 세부 모듈을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 번역 품질 평가 장치를 설명하기 위한 도면이다.
도 4는 본 발명의 다른 실시예에 따른 번역 품질 평가 장치를 이용한 번역 품질 평가 방법을 도시한 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. 한편, '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.
사용자 단말은 네트워크를 통해 번역 품질 평가 장치에 접속할 수 있는 컴퓨터나 휴대용 단말기로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 각종 스마트폰, 태블릿 PC 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
도 1은 본 발명의 일 실시예에 따른 번역 품질 평가 시스템을 도시한 블록도이다.
도1을 참조하면, 본 발명의 번역 품질 평가 시스템은 번역 품질 평가 장치(100), 복수의 사용자 단말(10)을 포함한다.
번역 품질 평가 장치(100)는 통신모듈(110), 메모리(120), 프로세서(130) 및 데이터베이스(140)를 포함한다.
통신모듈(110)은 통신망과 연동하여 사용자 단말(10)로 송수신되는 신호를 패킷 데이터 형태로 제공하는 데 필요한 통신 인터페이스를 제공한다. 여기서, 통신 모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.
메모리(120)는 번역 품질 평가 프로그램이 기록된 것일 수 있다. 번역 품질 평가 프로그램은, 제1언어로 작성된 원문과 상기 원문에 대하여 제2 언어로 작성된 번역문을 수신하고, 상기 번역문에 대하여 제1언어로 기계 번역을 수행하여 역번역문을 생성하고, 원문, 번역문 및 역번역문으로 구성된 말뭉치에 기초하여 연산한 원문과 번역문 간의 제1 코사인 유사도와 원문과 역번역문 간의 제2 코사인 유사도를 점수 예측 모델에 입력하여 번역 품질 점수를 산출한다. 또한 메모리(120)는 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 여기서, 메모리(120)는 휘발성 저장 매체(volatile storage media) 또는 비휘발성 저장 매체(non-volatile storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
메모리(120)는 프로세서(130)의 처리 및 제어를 위한 운영체제 등 별도의 프로그램이 저장될 수도 있고, 입력되거나 출력되는 데이터들의 임시 저장을 위한 기능을 수행할 수도 있다.
프로세서(130)는 메모리(120)에 저장된 번역 품질 평가 프로그램을 실행하고, 프로그램의 실행에 따라 번역 품질 평가 장치(100)의 하드웨어를 제어하는 기능을 제공한다. 즉, 프로세서(130)는 프로그램을 실행함에 따라 필요한 파일 시스템, 메모리 할당, 네트워크, 기본 라이브러리, 타이머, 디바이스 제어(디스플레이, 미디어, 입력장치, 3D 등), 기타 유틸리티 등의 하드웨어 제어 기능을 수행할 수 있다.
구체적으로 프로세서(130)는 번역 품질 평가 프로그램의 실행에 따라제1언어로 작성된 원문과 제2언어로 작성된 번역문을 수신하고, 번역문에 대하여 제1언어로 기계 번역을 수행하여 제1언어로 작성된 역번역문을 생성하고, 원문, 번역문 및 역번역문으로 구성된 말뭉치에 기초하여 연산한 원문과 번역문 간의 제1 코사인 유사도와 원문과 역번역문 간의 제2 코사인 유사도를 점수 예측 모델에 입력하여 번역 품질 점수를 산출한다. 또한, 번역 품질 평가 프로그램의 실행에 따른 번역 품질 평가 과정의 구체적인 각 단계에 대해서는 도 2 및 도 3을 참조하여 후술하도록 한다.
이러한 프로세서(130)는 프로세서(processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
데이터베이스(140)는 번역 품질 평가 방법을 수행하기 위해 공동으로 필요한 데이터를 유기적으로 결합하여 저장한 매체일 수 있다. 또한 데이터베이스(140)는 다국어의 각 문장 쌍들로 구성된 말뭉치에 대한 원문-번역문과 원문-역번역문 간의 각 코사인 유사도와 각 문장 쌍들에 대한 어절수 정보 및 번역 품질 점수를 포함한 학습 데이터가 저장된 것일 수 있다. 이러한 데이터베이스(140)는 메모리(120)와는 별도의 구성 요소로서 포함되거나, 또는 메모리(120)의 일부 영역에 구축될 수도 있다.
한편, 번역 품질 평가 장치(100)는 SaaS (Software as a Service), PaaS (Platform as a Service) 또는 IaaS (Infrastructure as a Service)와 같은 클라우드 컴퓨팅 서비스 모델에서 동작할 수 있다. 또한, 번역 품질 평가 장치(100)는 사설(private) 클라우드, 공용(public) 클라우드 또는 하이브리드(hybrid) 클라우드와 같은 형태로 구축될 수 있다.
번역 품질 평가 장치(100)는 사용자 단말(10) 상에서 구동되는 번역 서비스 제공 프로그램과 연동하여 번역 서비스 제공을 위한 동작들을 처리할 수 있다. 이에 한정되는 것은 아니며 번역 서비스 제공 프로그램과 별개로 단독 사용할 수 있다.
사용자 단말(10)은 통신모듈, 메모리 및 프로세서를 포함하며, 각 단말의 통신모듈은 프로세서의 제어에 따라, 번역 품질 평가 장치(100)와 각각 데이터 통신을 수행할 수 있다.
도 2는 본 발명의 일 실시예에 따른 번역 품질 평가 장치의 세부 모듈을 도시한 블록도이고, 도 3 은 본 발명의 일 실시예에 따른 번역 품질 평가 장치를 설명하기 위한 도면이다.
도 2를 참조하면 프로세서(130)는 번역 품질 평가 프로그램의 실행에 따라 다양한 기능을 수행하는 세부 모듈을 포함할 수 있다. 여기서 세부 모듈은 점수 예측 모델(210), 임베딩 벡터 산출부(220), 코사인 유사도 산출부(230) 및 문장 길이 측정부(240)를 포함할 수 있다.
도 3을 참조하면 번역 품질 평가 프로그램(이하, 프로그램)은 제1언어로 작성된 원문과 제2언어로 작성된 번역문을 수신하고, 번역문에 대하여 제1언어로 기계 번역을 수행하여 제1언어로 작성된 역번역문을 생성할 수 있다. 여기서 역번역문이란 번역 말뭉치에서 번역문을 다시 원문의 언어로 기계번역을 하여 얻어낸 문장을 의미한다. 또한 역번역문은 온라인 상에서 일반 사용자가 사용할 수 있도록 오픈된 타 기업의 기계번역기를 이용하여 기계 번역된 것일 수 있다.
이어서, 프로그램은 말뭉치(20)에 기초하여 연산한 제1 및 제2 코사인 유사도를 점수 예측 모델(210)에 입력하여 번역 품질 점수를 산출할 수 있다. 여기서 말뭉치(20)는 원문의 제1언어로 구성된 문장과 번역문의 제2언어로 구성된 문장 쌍의 집합과 번역문의 제2언어로 구성된 문장과 역번역문의 제1언어로 구성된 문장 쌍의 집합을 포함할 수 있다.
즉, 본 발명은 번역문의 번역 품질 점수를 제공하는 바, 사용자가 번역문에 대한 검수 및 교정 작업을 진행하기 위한 정량적 평가 기준을 제공할 수 있다.
다음으로, 프로그램은 사용자 단말(10)로부터 번역문에 대한 교정 정보가 입력되면, 교정 정보가 반영된 말뭉치(20)를 기초로 번역 품질 점수를 다시 산출할 수 있다.
구체적으로 점수 예측 모델(210)은 원문과 번역문 간의 제1 코사인 유사도 및 원문과 역번역문 간의 제2 코사인 유사도, 그리고 후술하는 어절수 정보를 입력으로 하여 말뭉치(20)에 대한 번역 품질 점수를 출력할 수 있다. 이때 점수 예측 모델(210)의 학습 과정에 대한 구체적인 설명은 후술하도록 한다.
한편 원문-역번역문 문장 쌍의 유사도(제2 코사인 유사도)로만 품질 예측을 할 경우에는 기존의 기계번역기의 성능에 따라 역번역문의 품질이 결정된다는 단점이 있다. 이를 보완하기 위해 본 발명은 점수 예측 모델(210)의 학습데이터로서, 제2 코사인 유사도 뿐 아니라, 원문-번역문 문장쌍의 유사도(제1 코사인 유사도)도 함께 학습하여 번역 품질 점수를 결정하는 점수 예측 모델(210)의 성능을 향상시킬 수 있다.
임베딩 벡터 산출부(220)는 다국어 언어모델을 이용하여 원문과 번역문에 대한 임베딩 벡터를 각각 산출하고, 단일 언어모델을 이용하여 원문과 역번역문에 대한 임베딩 벡터를 각각 산출할 수 있다.
예시적으로 임베딩 벡터 산출부(220)는 다국어 언어모델을 이용하여 각각의 원문, 번역문에 대한 문장 임베딩 벡터를 산출하고, 단일 언어모델을 이용하여 각각의 원문, 역번역문에 대한 문장 임베딩 벡터를 산출할 수 있다. 이때 본 발명은 기 학습된 다국어 언어모델 및 단일 언어모델을 이용하는 바, 비교적 적은 자원으로 고품질의 문장 임베딩을 얻어낼 수 있다.
코사인 유사도 산출부(230)는 원문과 번역문에 대한 임베딩 벡터들을 기초로 제1 코사인 유사도를 산출하고, 원문과 역번역문에 대한 임베딩 벡터들을 기초로 제2 코사인 유사도를 산출할 수 있다.
문장 길이 측정부(240)는 말뭉치에 대한 원문의 어절수, 역번역문의 어절수 및 원문과 역번역문의 어절수 차이를 포함하는 어절수 정보를 산출할 수 있다. 예시적으로 문장 길이 측정부(240)는 기존의 문장 길이 측정 알고리즘으로서, 한국어 및 영어 등을 포함한 각 언어 별로 기 설정된 기준에 따라 각 문장 들에 대한 어절을 구분할 수 있다. 이때 어절은 각 언어 별로 문장을 구성하고 있는 각각의 마디이며, 문장 성분의 최소 단위로서 기 설정된 것일 수 있다. 그리고, 문장 길이 측정부(240)는 각 문장 별로 구분된 어절을 기초로 원문과 역번역문의 어절수 차이를 산출할 수 있다.
점수 예측 모델(210)은 데이터베이스(140)에 기저장된 말뭉치에 대한 특징(feature) 정보로서 제1및 제2 코사인 유사도, 및 어절수 정보(원문의 어절수, 역번역문의 어절수 및 원문과 역번역문의 어절수 차이)와 특징 정보가 포함된 각 문장 쌍 별로 번역 품질 점수가 매칭된 학습 데이터에 기반하여 구축된 모델일 수 있다. 즉 점수 예측 모델(210)은 각 코사인 유사도 및 어절수 정보를 입력으로 하여 말뭉치에 대한 번역 품질 점수를 출력하도록 학습될 수 있다. 예를 들어, 점수 예측 모델(210)은 회귀분석모델과 부스팅 앙상블(ensemble) 모델 등 다양한 종류의 머신러닝 모델을 적용할 수 있다.
예시적으로, 번역 품질 점수는 미리 정해진 말뭉치에 대한 원문과 번역문의 문장 쌍 별로 전문가 집단이 번역 품질을 평가한 DA(Direct Assessment) 점수로 정의될 수 있다.
일 예로, 본 발명은 미리 정해진 말뭉치에 대한 한국어 원문과 영어 번역문의 문장 쌍에 대해 제1 및 제2 코사인 유사도를 산출하고, 산출된 제1 및 제2 코사인 유사도를 기초로 점수대 별 동일한 수의 문장 쌍을 샘플링할 수 있다. 이후, 샘플링된 문장 쌍에 대하여, 3명 이상의 전문가 집단이 아래의 품질 평가 기준에 따라 매긴 DA점수를 기초로 번역 품질 점수의 데이터를 구축할 수 있다.
예시적으로, 품질 평가 기준은 각 문장 쌍별 영어 번역 품질에 대하여, DA점수를 매길 수 있는 다음 10가지 평가 규칙을 포함할 수 있다. 1) 0-9: 문장이 아예 잘못 매치됨, 2) 10-19: 일부 단어가 일치하나 문맥이 다름, 3) 20-29: 구 단위로 의미가 누락되거나 불필요하게 추가됨, 4) 30-39: 용어의 주요한 오역, 누락, 추가로 인해 문맥 파악에 어려움이 있음, 5) 40-49: 용어의 주요한 오역, 누락, 추가가 있으나, 문맥 파악에는 어려움이 없음, 6) 50-59: 일부 단어가 대명사 등으로 대치됨, 7) 60-69: 고유 명사가 틀리거나 시제, 단어의 용법 등 문법적 오류가 있음, 8) 70-79: 문맥이 일치하고 누락이나 오역이 없으나 뉘앙스가 약간 다름, 9) 80-89: 번역 투 등, 원어민이 보기에 어색한 표현이 있을 수 있으나 문장 전체적인 의미가 누락이나 추가 없이 호응함, 10) 90-100: 어색한 표현이 없고 누락이나 중복, 잉여 표현이 없으며, 관용어나 속담 등이 원어민의 문화에 알맞은 표현으로 번역되었음 여기서 1) 내지 10) 평가 규칙의 동일 범위(동일 점수대) 내의 세부 평가 기준은 유창성으로 한다. 즉, 세부 평가 기준은 같은 점수대 내에서도 유창성이 떨어지고 번역 투가 강한 경우에 낮은 쪽으로 점수를 부여하고, 평가의 단위는 앞뒤 문맥이 없음을 가정한 단문 단위로 한다.
이처럼, 품질 평가 기준은 사용자가 실제로 번역문의 말뭉치를 검수할 때 자주 보이는 오류 유형과 그 정도를 분별해서 귀납적으로 작성한 규칙일 수 있다. 또한 품질 평가 기준은 처음 평가하는 평가자들에게도 방향을 제시할 수 있을 정도의 구체성을 제공할 수 있다.
따라서 프로그램은 사용자 단말(10)로부터 원문-번역문에 대한 말뭉치(20)를 수신하면, 원문-번역문 간의 제1 코사인 유사도와 원문-역번역문 간의 제2코사인 유사도와 각 문장 쌍에 대한 어절수 정보를 산출할 수 있다. 이때 산출된 각 코사인 유사도 및 어절수 정보가 점수 예측 모델(210)에 입력되면, 점수 예측 모델(210)이 번역 품질 점수를 제공할 수 있다.
추가 실시예로 프로그램은 번역 품질 점수에 대해 귀납적으로 결정한 제1임계값 및 제2 임계값에 따라 번역 검수 단계를 제공할 수 있다. 예를 들어, 번역 검수 단계는 번역 품질 점수에 따라 매우 나쁨, 나쁨, 좋음의 3단계로 구분될 수 있다. 일 예로 제1임계값 이하(매우 나쁨)의 점수를 갖는 번역문은 ‘원문과 번역문이 판이하여 새롭게 번역 작업이 필요하다고 판단되는 점수’로 분류하고, 제1 임계값 초과 제2 임계값 이하(나쁨)의 점수를 갖는 번역문은 ‘문장의 일부 단어 등 지엽적인 부분에서 수정이 필요하다고 판단되는 점수’로 분류하고, 제2 임계값 이상(좋음)의 점수를 갖는 번역문은 문법이나 단어의 오류가 없는 번역문으로 분류할 수 있다.
이하에서는 상술한 도 1 내지 도 3에 도시된 구성 중 동일한 기능을 수행하는 구성의 경우 설명을 생략하기로 한다.
도 4는 본 발명의 다른 실시예에 따른 번역 품질 평가 장치를 이용한 번역 품질 평가 방법을 도시한 순서도이다.
도 4를 참조하면 본 발명에 따른 번역 품질 평가 방법은 제1언어로 작성된 원문과 제2언어로 작성된 번역문을 수신하는 단계(S110), 번역문에 대하여 제1언어로 기계 번역을 수행하여 제1언어로 작성된 역번역문을 생성하는 단계(S120) 및 원문, 번역문 및 역번역문으로 구성된 말뭉치에 기초하여 연산한 원문과 번역문 간의 제1 코사인 유사도와 원문과 역번역문 간의 제2 코사인 유사도를 점수 예측 모델에 입력하여 번역 품질 점수를 산출하는 단계(S130)를 포함한다.
S130 단계 이후에 본 발명은 사용자 단말로부터 번역문에 대한 교정 정보가 입력되면, 교정 정보가 반영된 말뭉치를 기초로 번역 품질 점수를 다시 산출하는 단계를 더 포함할 수 있다.
S130 단계는 다국어 언어모델을 이용하여 원문과 번역문에 대한 임베딩 벡터를 각각 산출하고, 단일 언어모델을 이용하여 원문과 역번역문에 대한 임베딩 벡터를 각각 산출할 수 있다.
S130 단계는 원문과 번역문에 대한 임베딩 벡터들을 기초로 제1 코사인 유사도를 산출하고, 원문과 역번역문에 대한 임베딩 벡터들을 기초로 제2 코사인 유사도를 산출할 수 있다.
S130 단계는 문장 길이 측정 알고리즘을 기초로 말뭉치에 대한 원문의 어절수, 역번역문의 어절수 및 원문과 역번역문의 어절수 차이를 포함하는 어절수 정보를 산출할 수 있다.
점수 예측 모델(210)은 제1 및 제2 코사인 유사도와 어절수 정보를 입력으로 하여 말뭉치에 대한 번역 품질을 평가하는 점수를 출력하도록 학습된 회귀 모델을 포함할 수 있다.
이상에서 설명한 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 상술한 설명을 기초로 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해되어야만 한다. 본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
10: 사용자 단말
100: 번역 품질 평가 장치
110: 통신모듈
120: 메모리
130: 프로세서
140: 데이터베이스
210: 점수 예측 모델
220: 임베딩 벡터 산출부
230: 코사인 유사도 산출부
240: 문장 길이 측정부

Claims (12)

  1. 번역 품질 평가 장치에 있어서,
    통신모듈;
    번역 품질 평가 프로그램이 저장된 메모리; 및
    상기 프로그램을 실행하는 프로세서를 포함하되,
    상기 번역 품질 평가 프로그램은, 제1언어로 작성된 원문과 상기 원문에 대하여 제2 언어로 작성된 번역문을 수신하고, 상기 번역문에 대하여 상기 제 1 언어로 기계 번역을 수행하여 제1언어로 작성된 역번역문을 생성하고,
    상기 원문, 번역문 및 역번역문으로 구성된 말뭉치에 기초하여 연산한 상기 원문과 번역문 간의 제1 코사인 유사도와 상기 원문과 역번역문 간의 제2 코사인 유사도를 점수 예측 모델에 입력하여 상기 번역문에 대한 수정 작업의 수준을 나타내는 번역 품질 점수를 산출하고,
    상기 번역 품질 평가 프로그램은
    사용자 단말로부터 상기 번역문에 대한 교정 정보가 입력되면, 상기 교정 정보가 반영된 말뭉치를 기초로 상기 번역문에 대한 번역 품질 점수를 다시 산출하는 것인, 번역 품질 평가 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 번역 품질 평가 프로그램은
    다국어 언어모델을 이용하여 상기 원문과 번역문에 대한 임베딩 벡터를 각각 산출하고, 단일 언어모델을 이용하여 상기 원문과 역번역문에 대한 임베딩 벡터를 각각 산출하는 것인, 번역 품질 평가 장치.
  4. 제3항에 있어서,
    상기 번역 품질 평가 프로그램은
    상기 원문과 번역문에 대한 임베딩 벡터들을 기초로 상기 제1 코사인 유사도를 산출하고, 상기 원문과 역번역문에 대한 임베딩 벡터들을 기초로 상기 제2 코사인 유사도를 산출하는 것인, 번역 품질 평가 장치.
  5. 제1항에 있어서,
    상기 번역 품질 평가 프로그램은
    문장 길이 측정 알고리즘을 기초로 상기 말뭉치에 대한 상기 원문의 어절수, 상기 역번역문의 어절수 및 상기 원문과 역번역문의 어절수 차이를 포함하는 어절수 정보를 산출하는 것인, 번역 품질 평가 장치.
  6. 제5항에 있어서,
    상기 점수 예측 모델은
    상기 제1 및 제2 코사인 유사도와 상기 어절수 정보를 입력으로 하여 상기 말뭉치에 대한 번역 품질을 평가하는 점수를 출력하도록 학습된 회귀 모델을 포함하는 것인, 번역 품질 평가 장치.
  7. 번역 품질 평가 장치를 이용한 번역 품질 평가 방법에 있어서,
    (a) 제1언어로 작성된 원문과 상기 원문에 대하여 제2 언어로 작성된 번역문을 수신하는 단계;
    (b) 상기 번역문에 대하여 상기 제 1 언어로 기계 번역을 수행하여 제1언어로 작성된 역번역문을 생성하는 단계; 및
    (c) 상기 원문, 번역문 및 역번역문으로 구성된 말뭉치에 기초하여 연산한 상기 원문과 번역문 간의 제1 코사인 유사도와 상기 원문과 역번역문 간의 제2 코사인 유사도를 점수 예측 모델에 입력하여 상기 번역문에 대한 수정 작업의 수준을 나타내는 번역 품질 점수를 산출하는 단계를 포함하되,
    상기 (c) 단계 이후에
    사용자 단말로부터 상기 번역문에 대한 교정 정보가 입력되면, 상기 교정 정보가 반영된 말뭉치를 기초로 상기 번역문에 대한 번역 품질 점수를 다시 산출하는 단계를 더 포함하는 것인, 번역 품질 평가 방법.
  8. 삭제
  9. 제7항에 있어서,
    상기 (c) 단계는
    다국어 언어모델을 이용하여 상기 원문과 번역문에 대한 임베딩 벡터를 각각 산출하고, 단일 언어모델을 이용하여 상기 원문과 역번역문에 대한 임베딩 벡터를 각각 산출하는 것인, 번역 품질 평가 방법.
  10. 제9항에 있어서,
    상기 (c) 단계는
    상기 원문과 번역문에 대한 임베딩 벡터들을 기초로 상기 제1 코사인 유사도를 산출하고, 상기 원문과 역번역문에 대한 임베딩 벡터들을 기초로 상기 제2 코사인 유사도를 산출하는 것인, 번역 품질 평가 방법.
  11. 제7항에 있어서,
    상기 (c) 단계는
    문장 길이 측정 알고리즘을 기초로 상기 말뭉치에 대한 상기 원문의 어절수, 상기 역번역문의 어절수 및 상기 원문과 역번역문의 어절수 차이를 포함하는 어절수 정보를 산출하는 것인, 번역 품질 평가 방법.
  12. 제11항에 있어서,
    상기 점수 예측 모델은
    상기 제1 및 제2 코사인 유사도와 상기 어절수 정보를 입력으로 하여 상기 말뭉치에 대한 번역 품질을 평가하는 점수를 출력하도록 학습된 회귀 모델을 포함하는 것인, 번역 품질 평가 방법.
KR1020220178652A 2022-12-19 2022-12-19 번역 품질 평가 장치 및 방법 KR102653880B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220178652A KR102653880B1 (ko) 2022-12-19 2022-12-19 번역 품질 평가 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220178652A KR102653880B1 (ko) 2022-12-19 2022-12-19 번역 품질 평가 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102653880B1 true KR102653880B1 (ko) 2024-04-03

Family

ID=90662340

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220178652A KR102653880B1 (ko) 2022-12-19 2022-12-19 번역 품질 평가 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102653880B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140100843A1 (en) * 2012-10-10 2014-04-10 Kabushiki Kaisha Toshiba Machine translation apparatus, method and program
KR20210030238A (ko) 2019-09-09 2021-03-17 포항공과대학교 산학협력단 번역문 품질 예측 모델 학습 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140100843A1 (en) * 2012-10-10 2014-04-10 Kabushiki Kaisha Toshiba Machine translation apparatus, method and program
KR20210030238A (ko) 2019-09-09 2021-03-17 포항공과대학교 산학협력단 번역문 품질 예측 모델 학습 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Eo, Sugyeong, et al., A New Tool for Efficiently Generating Quality Estimation Datasets., arXiv preprint arXiv:2111.00767, 2021* *
Ramnath, Sahana, et al., Hintedbt: Augmenting back-translation with quality and transliteration hints., arXiv preprint arXiv:2109.04443, 2021* *

Similar Documents

Publication Publication Date Title
KR102401942B1 (ko) 번역품질 평가 방법 및 장치
US11314946B2 (en) Text translation method, device, and storage medium
US10747962B1 (en) Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation
US9916306B2 (en) Statistical linguistic analysis of source content
KR102449614B1 (ko) 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치
US10789431B2 (en) Method and system of translating a source sentence in a first language into a target sentence in a second language
US20140316764A1 (en) Clarifying natural language input using targeted questions
KR20190073525A (ko) 기계 학습 작업의 암시적 브리징
CN110874537A (zh) 多语言翻译模型的生成方法、翻译方法及设备
US9575965B2 (en) Translation assessment based on computer-generated subjective translation quality score
WO2019154210A1 (zh) 机器翻译的方法、设备以及计算机可读存储介质
JP2023007372A (ja) 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体
WO2024032691A1 (zh) 一种机器翻译质量评估方法、装置、设备和存储介质
KR102409667B1 (ko) 기계 번역의 학습 데이터 구축을 위한 방법
US20150081273A1 (en) Machine translation apparatus and method
CN107798386B (zh) 基于未标注数据的多过程协同训练
CN111178098B (zh) 一种文本翻译方法、装置、设备及计算机可读存储介质
KR102653880B1 (ko) 번역 품질 평가 장치 및 방법
KR20210035721A (ko) 다중-언어 코퍼스를 이용하여 기계번역 하는 방법 및 이를 구현한 시스템
Acheampong et al. Toward perfect neural cascading architecture for grammatical error correction
KR20230069872A (ko) 학습용 웹페이지를 이용하여 사용자의 어휘 수준에 적합한 외국어 번역 및 학습 서비스 제공 장치, 방법 및 프로그램
Moradshahi et al. X-RiSAWOZ: High-Quality End-to-End Multilingual Dialogue Datasets and Few-shot Agents
Devi et al. An empirical analysis on statistical and neural machine translation system for English to Mizo language
WO2020149069A1 (ja) 翻訳装置、翻訳方法およびプログラム
Kumari et al. Sentiment preservation in review translation using curriculum-based re-inforcement framework