KR20200057277A - 자동 번역 오류를 자동으로 진단 및 교정하는 장치 및 방법 - Google Patents

자동 번역 오류를 자동으로 진단 및 교정하는 장치 및 방법 Download PDF

Info

Publication number
KR20200057277A
KR20200057277A KR1020180141426A KR20180141426A KR20200057277A KR 20200057277 A KR20200057277 A KR 20200057277A KR 1020180141426 A KR1020180141426 A KR 1020180141426A KR 20180141426 A KR20180141426 A KR 20180141426A KR 20200057277 A KR20200057277 A KR 20200057277A
Authority
KR
South Korea
Prior art keywords
error type
vocabulary
original
automatic translation
evaluation
Prior art date
Application number
KR1020180141426A
Other languages
English (en)
Inventor
최승권
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020180141426A priority Critical patent/KR20200057277A/ko
Publication of KR20200057277A publication Critical patent/KR20200057277A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

자동 번역 오류를 자동으로 진단 및 교정하는 장치가 개시된다. 이 장치는 분류, 원문, 원문어휘, 평가어휘로 구성되는 언어 현상별 데이터베이스가 저장된 저장소; 상기 원문을 자동 번역한 자동 번역문에 상기 언어 현상별 데이터베이스에서 정의한 오류유형이 존재하는 지를 진단하는 오류유형 진단기; 및 진단 결과, 상기 자동 번역문에 오류유형이 존재하는 경우, 온라인 상에 등록된 원문들 중에서 상기 오류 유형의 원문 어휘를 포함하는 원문들을 수집하고 기계 학습하여, 상기 오류 유형을 자동으로 교정하는 오류유형 교정기를 포함한다.

Description

자동 번역 오류를 자동으로 진단 및 교정하는 장치 및 방법{Apparatus and Method for Automatically Diagnosing and Correcting Automatic Translation Errors}
본 발명은 자동번역 오류를 진단 및 교정하는 기술에 관한 것이다.
BLEU(Bilingual Evaluation Understudy) 기술은 자동 번역의 품질을 평가하는 기술 중에 하나로서, 자동 번역 출력문과 정답문(reference) 사이의 유사성(similarity)을 계산하여 자동으로 평가한다.
종래의 BLEU 기술은 자동 번역 출력문에 어떤 문제점이 있는지, 어떤 오류가 있는지를 제시하지 못하며, 자동 평가는 정답문이 어떤 것이냐에 정답문에 의존적이라는 단점이 있다.
본 발명은 자동 번역 출력문의 오류 유형을 진단하고, 그 오류 유형을 자동으로 교정하는 장치 및 방법를 제공하는데 그 목적이 있다.
상술한 목적을 달성하기 위한 본 발명의 일면에 따른 자동 번역 오류를 자동으로 진단 및 교정하는 장치는, 오류 유형의 정의한 분류, 원문, 원문어휘, 평가어휘로 구성되는 언어 현상별 데이터베이스가 저장된 저장소; 상기 원문을 자동 번역한 자동 번역문에 상기 언어 현상별 데이터베이스에서 정의한 오류유형이 존재하는 지를 진단하는 오류유형 진단기; 및 진단 결과, 상기 자동 번역문에 오류유형이 존재하는 경우, 온라인 상에 등록된 원문들 중에서 상기 오류 유형의 원문 어휘를 포함하는 원문들을 수집하고 기계 학습하여, 상기 오류 유형을 자동으로 교정하는 오류유형 교정기를 포함한다.
본 발명에 따르면, 자동 번역의 오류 유형을 자동으로 진단하고, 그 진단 결과가 오류인 경우 오류로 판정된 오류 유형의 어휘를 포함한 원문(source sentences)을 대량으로 수집하여 수집된 원문을 이용하여 자동 번역기를 학습시킴으로써, 자동 번역기에서 발생할 수 있는 번역 오류를 자동으로 교정할 수 있다.
나아가, 자동 번역의 오류 유형을 자동으로 진단 및 교정함으로써, 자동번역 시스템뿐만 아니라 자동통역 및 실시간 동시통역 시스템의 번역 품질을 크게 개선할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 자동 번역 오류를 자동으로 진단 및 교정하는 장치의 블록도이다.
도 2는 본 발명의 실시 예에 따른 언어 현상별 데이터베이스 내에 구조화된 정보들을 테이블 형태로 도시한 도면이다.
도 3은 본 발명의 실시 예에 따른 자동번역문의 오류 유형을 자동으로 진단 및 교정하는 방법을 나타내는 흐름도이다.
도 4는 도 3에 도시한 단계 S330의 상세 과정을 나타내는 흐름도이다.
도 5는 본 발명의 실시 예에 따른 자동 번역문이 오류 유형으로 진단된 예를 나타낸 도면이다.
도 6은 도 3에 도시한 단계 S350의 상세 과정을 나타내는 흐름도이다.
이하, 본 발명의 다양한 실시예가 첨부된 도면과 연관되어 기재된다. 본 발명의 다양한 실시예는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나, 이는 본 발명의 다양한 실시예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 다양한 실시예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.
본 발명의 다양한 실시예에서 사용될 수 있는“포함한다” 또는 “포함할 수 있다” 등의 표현은 개시(disclosure)된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 발명의 다양한 실시예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시 예에 따른 자동 번역 오류를 자동으로 진단 및 교정하는 장치의 블록도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 자동 번역 오류를 자동으로 진단 및 교정하는 장치(100, 이하, 진단 및 교정 장치)는 자동 번역기(200)에서 출력되는 자동 번역문(또는 대역문)의 오류 유형을 진단하고 그 오류 유형을 자동으로 교정하여 자동 번역기(200)를 업데이트한다.
자동 번역문의 오류 유형을 진단하고 그 오류 유형을 자동으로 교정하기 위해, 진단 및 교정 장치(100)는 하드웨어 측면에서 바라볼 때, 통신 기능을 갖는 전자 장치 또는 그 전자 장치에 탑재되도록 모듈화된 임의의 전자 부품일 수 있다.
전자 장치는, 예를 들면, 데스크탑 PC(desktop personal computer), 사용자 단말 또는 서버 일 수 있다. 사용자 단말은, 예를 들면, 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 비디오 전화기, 전자북 리더기(e-book reader), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device)(예: 전자 안경과 같은 head-mounted-device(HMD), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리(appcessory), 또는 스마트 와치(smart watch))중 적어도 하나를 포함할 수 있다.
전자 장치는, 기본적으로, 비휘발성 메모리, 휘발성 메모리, 프로세서, 입출력장치, 통신모듈을 포함하도록 구성될 수 있다. 비휘발성의 메모리의 대표적인 예로 하드디스크가 있을 수 있다. 휘발성 메모리의 대표적인 예로 램(RAM)이 있을 수 있다. 통신모듈은 외부 전자 장치와 통신 가능하도록 유무선 통신을 지원하는 하드웨어 부품들을 포함한다. 하드웨어 부품은 변조 및 무선 전송을 지원하기 위해서 적절한 모뎀, 증폭기, 필터, 및 주파수 변환기 등을 포함할 수 있다. 프로세서는 하나 이상의 범용 마이크로프로세서들, 디지털 신호 프로세서들(DSP들), 하드웨어 코어들, ASIC들(application specific integrated circuits), FPGA들(field programmable gate arrays), 또는 이들의 임의의 결합에 의해서 구현될 수 있다.
이러한 전자 장치로 구현되는 진단 및 교정 장치(100)는, 도 1에 도시된 바와 같이, 저장소(110), 오류 유형 진단기(120), 오류 유형 교정기(130) 및 통신 모듈(130)을 포함한다.
추가로, 진단 및 교정 장치(100)는, 도시하지는 않았으나, 입출력 장치를 더 포함할 수 있다. 여기서, 입력 장치는 사용자 입력에 따라 아래에서 설명할 언어 현상별 데이터베이스(112)를 구축하기 위한 데이터, 명령어, 프로그램 코드를 생성하는 키입력 장치일 수 있다. 키입력 장치는, 예를들면, 키보드, 터치 스크린 등을 포함한다. 출력 장치는 진단 및 교정 장치(100)의 처리 결과 또는 중간 처리 결과을 사용자에게 제공하는 것으로, 표시 모듈일 수 있다.
저장소(110)는 전술한 비휘발성 메모리 및 휘발성 메모리로 구현되며, 사전에 구축된 언어 현상(Language phenomenon)별 데이터베이스(112)를 저장한다. 언어 현상별 데이터베이스(112)는 자동 번역기(200)에서 자동 번역한 자동 번역문의 오류 유형과 그 오류 유형을 교정하기 위한 평가어휘를 정의한다. 이에 대한 설명은 도 2를 참조하여 아래에서 상세히 기술하기로 한다.
오류 유형 진단기(120)는 언어 현상별 데이터베이스(112)를 이용하여, 자동 번역기(200)로부터 입력되는 자동 번역문의 오류 유형을 진단한다. 이에 대한 설명은 도 4을 참조하여 아래에서 상세히 기술하기로 한다.
오류 유형 교정기(130)는, 오류 유형 진단기(120)의 진단 결과에 따라 자동 번역문의 오류 유형을 확인하면, 상기 오류 유형을 갖는 온라인 상에 등록된 원문들(source sentence)을 수집하고, 상기 수집된 온라인상에 등록된 원문들에 대해 기계학습을 수행하여 상기 확인된 오류 유형을 교정한다.
이를 위해, 오류 유형 교정기(130)는 원문 수집기(132), 대역문 생성기(134), 대역 어휘 교체기(136) 및 학습기(130)를 포함하며, 각 구성에 대한 설명은 아래의 도 6에서 상세히 기술하기로 한다.
오류 유형 진단기(120) 및 오류 유형 교정기(130)를 하드웨어를 구현하는 경우, 하나의 프로세서에 임베딩되거나 서로 다른 2개의 프로세서들에 각각 임베딩될 수 있다.
통신 모듈(140)은 유무선 통신망을 통해 포털 사이트 등에 접속 가능한 구성으로, 온라인 상으로 배포되는 원문들 중에서 상기 오류 유형을 갖는 원문들을 수신하여 이를 오류 유형 교정기(130)로 전달한다.
도 2는 본 발명의 실시 예에 따른 언어 현상별 데이터베이스 내에 구조화된 정보들을 테이블 형태로 도시한 도면이다.
도 2를 참조하면, 언어 현상별 데이터베이스(112)에는 자동 번역문의 오류 유형을 진단 및 교정하기 위한 정보들이 언어 현상(Language phenomenon)별 평가 세트(20)(test set)로 구조화된다.
평가 세트(20)의 구조는 <분류> 항목(21), <원문> 항목(22), <원문어휘> 항목(23), <평가어휘> 항목(24, 25)을 포함한다.
<분류> 항목(21)은 오류 유형의 분류를 의미한다. 실시 예에 따른 오류 유형은 품사 모호성(26), 구조 모호성(27), 공기 관계(28), 다의어(29) 및 자연스러운 번역표현(30, 31)을 포함한다.
<원문> 항목(22)은 자동 번역기(200)가 자동 번역할 원문을 의미한다. <원문 어휘> 항목(23)은 상기 자동 번역할 원문 내에서 진단 대상으로 정의된 어휘를 의미한다. <평가어휘> 항목(24, 25)은 자동 번역문 내에서 진단 대상으로 정의된 원문 어휘에 대응되는 대역어로서, 원문 어휘를 번역한 어휘들 중에서 자동 번역문 내에서 가장 어울리는 어휘 또는 자동 번역문 내에서 나타나야 되는 어휘를 의미한다. 이러한 평가 어휘는 디지털 번역사전에서 선정될 수 있다.
원문, 원문 어휘 및 평가 어휘는 언어 현상별 데이터베이스(112) 내에서 다음과 같은 매칭(matching) 관계를 갖도록 정의될 수 있다.
매칭관계1 : <원문> <원문어휘> <평가 어휘1> ··· < 평가 어휘n >
매칭 관계1은 하나의 원문 어휘 및 2개 이상의 평가 어휘가 매칭되는 관계를 의미한다.
예1) 원문이 <A climb to success is so hard>이고, 이러한 원문 내에서 평가 대상으로 지정된 원문 어휘가 <climb>일 때, 평가 어휘는 평가 어휘1 <오르기> 및 평가 어휘2 <등반>를 포함한다.
예2) 원문이 <I could not but get angry>이고, 이러한 원문 내에서 평가 대상으로 지정된 원문 어휘가 <could not but>일 때, 평가 어휘는 평가 어휘1 <지 않고는 있을 수 없었>, 평가 어휘2 <지 않고 있을 수 없었> 및 평가 어휘3 <지 않을 수 없었>을 포함한다.
매칭관계 2: <원문> <원문어휘> <평가 어휘1 //평가 어휘2 >
매칭 관계 2는 <원문어휘>에 매칭되는 <평가어휘>가 <평가 어휘1//평가 어휘2>, <평가 어휘1> 또는 <평가 어휘2>일 수 있음을 의미하는 관계이다. 즉, <평가어휘>가 2개 이상으로 분리되어 하나의 <원문어휘>에 매칭될 수 있다. 평가 어휘가 <평가 어휘1//평가 어휘2>와 같이 기호 '//'를 포함하는 경우, 기호 '//'를 기준으로 왼쪽 어휘와 오른쪽 어휘가 분리됨을 의미한다.
예1) 도 2에 도시된 바와 같이, <원문>이 "Do you form opinion about people simply from looking at their faces?" 이고, 이 <원문>에서 평가 대상으로 지정된 <원문 어휘>가 simply from looking인 경우, 평가 어휘는 평가 어휘1 <단지//보는 것만으로> 및 평가 어휘 2 <보는 것만으로>을 포함한다.
위의 예1에서, 'simply from looking'의 정상적인 번역결과는 '단지 보는 것만으로'일 수 있지만, '단지'를 생략한 '보는 것만으로'도 정상적인 번역결과로 평가될 수 있다.
예2) <원문: None of the books were interesting> <원문 어휘: none of the books> <평가어휘1: 어느 책도//지 않><평가어휘2: 책들 중 어느 것도//지 않>
매칭 관계 3: <원문> <원문어휘> <~평가어휘>
매칭 관계 3은 원문 어휘와 자동 번역문 내에서 생략되어야 하는 <평가 어휘> 간의 매칭을 정의한다. 여기서, <~평가어휘>는 <원문어휘>에 대응되는 <평가어휘>가 자동 번역문에 나타나지 말아야 한다는 것을 의미한다. 즉 '~'은 논리적 결합어 중에서 논리적 부정(negation)을 표현한다.
예) <It was September 17> <It> <~그것>
도 3은 본 발명의 실시 예에 따른 자동번역문의 오류 유형을 자동으로 진단 및 교정하는 방법을 나타내는 흐름도이다.
도 3을 참조하면, 먼저, 도 2에 도시한 바와 같은 언어형상별 데이터베이스는 사전에 구축된 것으로 가정한다.
이어, 단계 S310에서, 사전에 구축된 언어 현상별 데이터베이스(112)가 자동 번역기(200)로부터의 원문 요청에 응답하여 <원문> 항목(22)에 저장된(또는 기록된) 제1 언어의 원문을 자동 번역기(200)로 전달한다.
이어, 단계 S320에서, 자동 번역기(200)가 제1 언어의 원문을 자동 번역문(제2 언어)으로 자동 번역하고, 그 번역결과(자동 번역문)을 오류 유형 진단기(120)로 전달한다.
이어, 단계 S330에서, 오류 유형 진단기(120)가 언어 현상별 데이터베이스(112)를 참조하여, 자동 번역기(200)로부터 전달된 자동 번역문에서 오류 유형이 존재하는 지를 진단한다.
이어, 단계 S340에서, 진단 결과, 오류 유형이 존재하지 않으면, 자동번역문의 오류 유형을 자동으로 진단 및 교정하는 일련의 과정을 종료한다.
한편, 진단 결과, 오류 유형이 존재하면, 단계 S350에서 오류 유형 교정기(130)가 오류유형의 원문 어휘를 포함한 대량의 원문을 온라인상에서 자동 수집하고, 수집된 대량의 원문들에 대해 기계 학습을 수행하여 그 학습 결과를 기반으로 자동 번역기(200)를 갱신하는 방식으로 자동 번역문의 오류 유형을 자동으로 교정한다.
이후, 갱신된 자동 번역기(200)를 기반으로 오류 유형이 진단되지 않을 때까지 단계 S320, S330 및 S340을 반복 수행한다.
도 4는 도 3에 도시한 단계 S330의 상세 과정을 나타내는 흐름도이다.
도 4를 참조하면, 단계 S410에서, 오류 유형 진단기(120)가 자동 번역기(200)로부터 전달된 자동 번역문 내의 어휘들과 언어 현상별 데이터베이스(112)에 정의한 평가 어휘들을 비교한다. 비교 방법은 어휘 간의 유사도를 비교하는 것일 수 있다. 본 발명의 기술적 핵심은 어휘 간의 유사도 비교에 있는 것이 아니므로, 이에 대한 설명은 공지기술로 대신한다.
이어, 단계 S420에서, 단계 S410의 비교 결과에 따라, 오류 유형 진단기(120)가 해당 오류 유형에 대한 평가 점수를 산출한다.
예를 들면, 자동 번역문 내의 어휘와 언어 현상별 데이터베이스(112)에 정의한 평가 어휘 간의 유사도가 허용 오차 범위 내에 있는 경우, 즉, 자동 번역문 내에 언어 현상별 데이터베이스(112)에 정의한 평가 어휘가 존재하는 경우, 해당 오류 유형에 대해 평가 점수 1을 부여한다.
자동 번역문 내의 어휘와 언어 현상별 데이터베이스(112)에 정의한 평가 어휘 간의 유사도가 허용 오차 범위를 벗어나는 경우, 즉, 자동 번역문 내에 언어 현상별 데이터베이스(112)에 정의한 평가 어휘가 존재하지 않는 경우, 해당 오류 유형에 대해 평가 점수 0을 부여한다.
한편, 도 2의 자연스러운 번역 표현(31)에 대한 평가 점수를 산출하는 경우는, 위의 예와는 다르다. 즉, 자동 번역문 내에서 생략되어야 하는 <~평가 어휘>가 존재하는 경우는 해당 오류 유형(31)에 대해 평가 점수 1을 부여하는 것이 아니라 0을 부여하고, 그 반대의 경우에서는 평가 점수 1을 부여하는 점에서 차이가 있다.
도 5에서는 오류 유형으로 진단된 자동 번역문과 그에 따른 평가 점수의 산출 예가 도시된다.
이후, 오류 유형 진단기(120)가 해당 오류 유형에 대한 평가 점수 산출을 완료하면, 산출된 평가 점수를 기반으로 자동 번역문 내에 언어 현상별 데이터베이스(112)에서 정의한 해당 오류 유형이 존재하는 지를 판단한다.
예를 들면, 평가 점수가 1이면, 자동 번역문은 언어 현상별 데이터베이스(112)에서 정의한 해당 오류 유형이 존재하지 않는 것으로 판단하고, 평가 점수가 0이면, 자동 번역문은 언어 현상별 데이터베이스(112)에서 정의한 해당 오류 유형이 존재하는 것으로 판단하여, 도 3의 단계 S350을 수행한다.
도 6은 도 3에 도시한 단계 S350의 상세 과정을 나타내는 흐름도이다. 설명의 이해를 돕기 위해, 도 1을 함께 참조한다.
도 6을 참조하면, 오류 유형 진단기(120)의 진단 결과에 따라 언어 현상별 데이터베이스에 저장된 원문에 대한 자동 번역문 내에 오류 유형이 존재하는 경우, 먼저, 단계 S610에서, 오류 유형 교정기(130) 내의 원문 수집기(132)가 통신 모듈(140)을 통해 온라인상에 등록된 원문들 중에서 오류 유형의 원문 어휘를 포함하는 원문들을 수집한다.
이어, 단계 S620에서, 오류 유형 교정기(130) 내의 대역문 생성기(134)가 수집된 원문들을 자동 번역하여 대역문들을 생성한다.
이어, 단계 S630에서, 오류 유형 교정기(130) 내의 대역 어휘 교체기(134)가 단계 S620에서 생성한 각 대역문 내에서 오류 유형의 원문 어휘에 대응하는 대역 어휘를 언어 현상별 데이터베이스(112)에서 정의한 평가 어휘로 교체한다.
이어, 단계 S640에서, 오류 유형 교정기(130) 내의 학습기(134)가 수집된 원문들과 단계 S630에서 평가 어휘로 교체된 대역문들을 기계 학습하고, 그 학습 결과(수집된 원문들과 평가 어휘로 교체된 대역문들 간의 대응 관계)를 자동 번역기(200)에 적용하여, 자동 번역기(200)를 갱신한다.
이후, 갱신된 자동 번역(200)를 이용하여 자동 번역문 내에 오류 유형이 나타나지 않을 까지 도 3의 단계 S320, S330 및 S340을 반복 수행한다.
이상 설명한 바와 같이, 본 발명은 자동 번역문의 오류 유형을 자동으로 진단하고, 진단 결과가 오류인 경우 오류로 판정된 오류 유형의 어휘를 포함한 원문(source sentences)을 대량으로 자동 수집하여 기계 학습함으로써 오류 유형을 자동으로 교정할 수 있다.
이와 같이, 본 발명의 자동 번역 오류를 자동으로 진단 및 교정하는 장치 및 방법은 정답세트를 만들 필요 없이 언어 현상별 데이터베이스를 구축함으로써 자동 번역 출력문에 어떤 문제점이 있는지, 어떤 오류 유형이 있는지를 제시하지 못하는 종래의 BLEU 기술이 단점을 개선할 수 있다.
즉, 본 발명은 사전에 구축된 언어 현상별 데이터베이스에 의해 신경망 자동번역(Neural Machine Translaiton: NMT)의 장단점을 오류 유형별로 정밀하게 파악하여, NMT의 다양한 약점을 찾아내어 성능을 개선할 수 있다.
이상에서 본 발명에 대하여 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 본 발명의 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (1)

  1. 오류 유형을 정의한 분류, 원문, 원문어휘 및 평가어휘로 구성되는 언어 현상별 데이터베이스가 저장된 저장소; 
    상기 원문을 자동 번역한 자동 번역문에 상기 오류 유형이 존재하는 지를 진단하는 오류유형 진단기; 및
    진단 결과, 상기 자동 번역문에 오류유형이 존재하는 경우, 온라인상에 등록된 원문들 중에서 상기 오류 유형의 원문 어휘를 포함하는 원문들을 수집하고 기계 학습하여, 상기 오류 유형을 자동으로 교정하는 오류유형 교정기
    를 포함하는 자동 번역 오류를 자동으로 진단 및 교정하는 장치.
KR1020180141426A 2018-11-16 2018-11-16 자동 번역 오류를 자동으로 진단 및 교정하는 장치 및 방법 KR20200057277A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180141426A KR20200057277A (ko) 2018-11-16 2018-11-16 자동 번역 오류를 자동으로 진단 및 교정하는 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180141426A KR20200057277A (ko) 2018-11-16 2018-11-16 자동 번역 오류를 자동으로 진단 및 교정하는 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20200057277A true KR20200057277A (ko) 2020-05-26

Family

ID=70915216

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180141426A KR20200057277A (ko) 2018-11-16 2018-11-16 자동 번역 오류를 자동으로 진단 및 교정하는 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20200057277A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220033613A (ko) * 2020-09-08 2022-03-17 고려대학교 산학협력단 신경망 기계 번역의 교정 성능 평가 메트릭스 및 그 구축 방법
KR20230036623A (ko) 2021-09-07 2023-03-15 고려대학교 산학협력단 기계번역 사후교정을 위한 학습 데이터 생성 장치 및 방법
KR20240078945A (ko) 2022-11-28 2024-06-04 고려대학교 산학협력단 프롬프트를 활용한 기계번역 결과 치명적 오류 감지 방법 및 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220033613A (ko) * 2020-09-08 2022-03-17 고려대학교 산학협력단 신경망 기계 번역의 교정 성능 평가 메트릭스 및 그 구축 방법
KR20230036623A (ko) 2021-09-07 2023-03-15 고려대학교 산학협력단 기계번역 사후교정을 위한 학습 데이터 생성 장치 및 방법
KR20240078945A (ko) 2022-11-28 2024-06-04 고려대학교 산학협력단 프롬프트를 활용한 기계번역 결과 치명적 오류 감지 방법 및 장치

Similar Documents

Publication Publication Date Title
EP3832519A1 (en) Method and apparatus for evaluating translation quality
US11250842B2 (en) Multi-dimensional parsing method and system for natural language processing
US9373075B2 (en) Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation
US9767095B2 (en) Apparatus, system, and method for computer aided translation
US20150161106A1 (en) Testing and Training a Question-Answering System
EP3343400A1 (en) System and method for dynamically creating a domain ontology
US20170091164A1 (en) Dynamic Context Aware Abbreviation Detection and Annotation
US11151202B2 (en) Exploiting answer key modification history for training a question and answering system
CN111310440A (zh) 文本的纠错方法、装置和系统
US20210397787A1 (en) Domain-specific grammar correction system, server and method for academic text
KR20200057277A (ko) 자동 번역 오류를 자동으로 진단 및 교정하는 장치 및 방법
Omiye et al. Large language models in medicine: the potentials and pitfalls: a narrative review
Thomas et al. RETRACTED ARTICLE: Sentimental analysis of transliterated text in Malayalam using recurrent neural networks
Rajkomar et al. Deciphering clinical abbreviations with a privacy protecting machine learning system
CN111523532A (zh) 一种矫正ocr文字识别错误的方法及终端设备
Lytvyn et al. Identification and Correction of Grammatical Errors in Ukrainian Texts Based on Machine Learning Technology
Hládek et al. Slovak dataset for multilingual question answering
Vandeghinste et al. Improving the translation environment for professional translators
Gerlach Improving statistical machine translation of informal language: a rule-based pre-editing approach for French forums
Zhang et al. Chinese medical entity recognition model based on character and word vector fusion
US20150081275A1 (en) Compressing data for natural language processing
CN110929504B (zh) 语句诊断方法、装置和系统
US11087084B2 (en) Confidence models based on error-to-correction mapping
Goldberg et al. Findings of the association for computational linguistics: Emnlp 2022
WO2022123716A1 (ja) 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置